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Kurzfassung 


Diese Arbeit handelt von Aspekten der Bildauswertung im Hinblick auf 
durch Menschen verursachte Veränderungen (Artefakte). Die Beiträge glie- 
dern sich wie folgt: 


Ikonisch/parametrisch!: 

Vorstellung eines Vorschlags fiir ein Verfahren zur Auffalligkeitsdetektion 
(Salienz) auf ikonischer Ebene inkl. effizienter Implementierung durch Nut- 
zung von Parallelisierung auf Datenebene. Das Verfahren ist unter Nutzung 
von SIMD-Code fertig implementiert. 


Gesamtsystem: 

Auf der Basis der Erkenntnis, dass die Niitzlichkeit von automatischen Bild- 
auswerteverfahren am zweckmäßigsten im Anwendungs- und Systemkontext 
demonstriert werden kann und in diesem Kontext die Entwicklung neuer Ver- 
fahren am zweckmäßigsten angestoßen wird, wurde die Entwicklung eines 
Bildfolgenauswertesystems für Sicherheitsaufgaben »ABUL« (automatische 
Bildauswertung für unbemannte Luftfahrzeuge) angestoßen. 


Es wird also ein Ansatz präsentiert, der durch die sensorische Erfassung von 
Auffälligkeiten in exemplarischen Szenen Rückschlüsse über die sich in der 
Szene abspielenden oder vergangenen Vorgänge ermöglicht. Die Vorgänge 
zeichnen sich durch Änderungen in der Szene aus, wobei hier Veränderungen 
durch menschliches Einwirken gemeint sind (Erscheinen oder Verschwinden 
von Objekten, Personen oder hinterlassene Spuren). Bei diesen Vorgängen 
wird unterstellt, dass eine Nicht-Kooperativität beteiligter Akteure sowie ein 
dem Beobachter unbekanntes Drehbuch (Intention, Absicht) zugrunde liegt, 
d.h. dass zielgerichtete Aktionen stattfinden bzw. stattfanden und diese Akti- 
onen Veränderungen in Form von Spuren hinterlassen. 


1 Bei der ikonischen Bildverarbeitung liegt das Ergebnis in bildlicher und bei der parametrischen in anderer 


Datenstruktur vor. 
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1 Einleitung 


1.1 Motivation 


Der übergeordnete Anwendungskontext dieser Arbeit rankt sich um das 
Thema »Sicherheit«. Diesem Thema wird national wie international ver- 
stärkte Beachtung geschenkt. Auf nationaler Ebene äußert sich dieses 
z.B. durch die erstmalige Finanzierung diverser Verbundprojekte einer 
Programmlinie »Querschnittsorientierte Sicherheitsforschung« durch 
das Bundesministerium für Bildung und Forschung (BMBF) auf den fol- 
genden Gebieten!: 


e  Gesellschaftliche Aspekte 

e Biometrie 

e Mustererkennung 

e Integrierte Schutzsysteme 

e Detektion von Gefahrstoffen 


Ebenso gibt es vergleichbare Aktivitäten auf europäischer Ebene. Ausge- 
hend von der »Lissabon-Strategie« der Europäischen Union soll Europa 
zur wettbewerbsfähigsten Region der Welt gemacht werden (BMBF, 
2007). Dazu wurde das mit 54 Milliarden Euro ausgestattete und über 
sieben Jahre laufende 7. Rahmenprogramm aufgesetzt, welches somit 
eine Budgeterhöhung im Vergleich zum Vorgängerprogramm um 60% 
erhielt. Im 7. Rahmenprogramm wurde die Sicherheitsforschung erstma- 
lig auf europäischer Ebene explizit gefördert. Das in Ausarbeitung be- 
findliche und für 2014-2020 angesetzte Folgeprogramm der EU 


1 http://www.bmbf.de/de/18187.php, abgerufen am 10.12.2013. 


Einleitung 


»Horizon 2020« soll mit einem Budget in Höhe von 80 Milliarden Euro 
ausgestattet werden. Auch das anstehende Rahmenprogramm wird den 
Aspekt Sicherheitsforschung explizit adressieren (EU, 2011). 


National hat sich u.a. die Fraunhofer Gesellschaft (FhG) mit großem En- 
gagement des Themas »Sicherheit« angenommen. Das Thema wird vor 
allem im Kontext »Morgenstadt« gesehen, bei dem den Herausforderun- 
gen der Zukunft u.a. auch auf dem Gebiet der Sicherheit begegnet wer- 
den soll (Bullinger & Röthlein, 2012, S. 159-180). In dem Zusammenhang 
ist insbesondere auch von dem Konzept »Smart Cities« die Rede, bei dem 
es um Städte mit einer erhöhten digitalen, vernetzten und intelligenten 
Informationstechnologie geht (PERSPECTIVES, 2013). 


Das Fraunhofer Institut für Optronik, Systemtechnik und Bildauswertung 
(IOSB) hat ein eigenes Geschäftsfeld »Zivile Sicherheit« eingerichtet, in 
dem die Felder »Schutz des Bürgers«, »Schutz von Infrastrukturen«, »Cy- 
ber Security« sowie »Privatheit und Datenschutz« bearbeitet werden 
(Beyerer, Tacke, Müller, & et al., 2012). Auch wenn der Schutz der Per- 
sönlichkeitsrechte ein wesentliches Feld ist, um z.B. die Akzeptanz von 
Sicherheitstechnologien in der Gesellschaft zu erhöhen (Vagts, 2013), fo- 
kussiert sich die vorliegende Arbeit auf (system-) technische Aspekte. 
Beim Schutz des Bürgers geht es z.B. um frühzeitige Erfassung von im 
Ablauf befindlichen kritischen Situationen (z.B. gewaltsame Übergriffe), 
um die Chance zu wahren, noch rechtzeitig eingreifen zu können. 
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Abbildung 1-1: Dezember 2007: Tätlicher Übergriff auf eine Person in ei- 
ner U-Bahnstation in München, Bild: dpa 


Neben dedizierten und möglichst flexiblen Einzelverfahren sind auch Ar- 
beiten zur Auffälligkeitserfassung (Salienz) sowie die Realisierung von 
Systemkonzepten und Integrationssystemen nötig. 


1.2 Problemstellung und Begriffe 


In der industriellen Bildverarbeitung muss die Aufgabenstellung im All- 
gemeinen eng begrenzt werden. Dieses Feld zeichnet sich im Wesentli- 
chen durch ihre Möglichkeit zur ausgeprägten Spezialisierung in dreifa- 
cher Hinsicht aus: mit spezialisierten Verfahren für eine spezialisierte 
Aufgabenstellung werden spezialisierte Bilder ausgewertet, d.h. es wer- 
den spezielle Sensoren ausgewählt und optimiert, der Bildhintergrund 
ist bekannt oder festlegbar (z.B. die Farbe vom Fließband), die Beleuch- 
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tung kann optimiert werden und soll im Betrieb unverändert (bzw. ge- 
zielt veränderlich) bleiben, die Welt der möglichen Gut-/Fehlsignaturen 
ist vergleichsweise eingeschränkt und weitere Randbedingungen, wie 
z.B. Taktzeiten, Lage/Orientierung und der beeinflussbare Zustand der 
Stückgüter sind bekannt oder festlegbar. Diese Aspekte ermöglichen die 
angesprochene a priori Spezialisierung der eingesetzten Verfahren unter 
Wegfall der Notwendigkeit einer weitgehenden Adaptivität im Betrieb 
und führen dazu, dass die industrielle Bildverarbeitung in vielen Berei- 
chen erfolgreich operieren kann: 


Bildverarbeitungsverfahren sind in dem Maße erfolgreich, wie sie vor 
dem Betrieb spezialisiert werden können. 


Prominente Beispiele einer spezialisierten Mikrowelt mit entsprechen- 
den Aufgabenstellungen und Verfahren stellen die polyhedralen »Block- 
welten« dar, die aus definierten Klötzen mit unterschiedlicher Form und 
Farbe bestehen, welche auf einer planen Ebene angeordnet sind (vgl. z.B. 
(Waltz, 1975)). Die Aufgabe für das Sichtsystem besteht darin, mit Hilfe 
eines Roboterarms unterschiedliche Anordnungen der Klötze zu realisie- 
ren. 
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Abbildung 1-2: Beispielszene einer »Blockwelt« 
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Demgegenüber liegen dieser Arbeit keine »spezialisierten« Bilder vor, 
sondern »natürliche«, d.h. es sollen relevante Zielobjektsignaturen in ih- 
rer angestammten, unbekannten Umgebung gefunden werden (man 
könnte daher auch von »in situ«-Bildern sprechen). Die Problematik re- 
sultiert aus den größtenteils nicht bekannten bzw. unbeeinflussbaren 
Randbedingungen sowie der Variabilität des Dargebotenen: 


e Vielfalt (Zustand, Farbe, usw.) und Anzahl unterschiedlicher 
Zielobjekte. 


e Unbekannter Hintergrund, auf bzw. vor dem sich die Zielob- 
jekte aufhalten. 


e Nicht kalibrierte Sensorik mit zum Teil unbekannten oder 
nur grob bekannten Sensoreigenschaften. 


e Ungenaue Aufnahmeparameter. 


e Unbekannte oder ungenaue Wetter- und Beleuchtungsver- 
hältnisse. 


e Im Kontext von Sicherheitsaufgaben ist kein kooperatives 
Verhalten der Akteure zu erwarten. 


Die Probleme dieser Anwendungsdomäne begründeten die weitgehende 
Abstinenz automatischer Verfahren in aktuellen Systemen. Die Ursache 
für diesen Mangel besteht darin, dass die Verfahren vor und bei ihrer An- 
wendung nicht ausreichend spezialisiert werden können. 


Teilaspekte dieser Arbeit ranken sich um die automatische Erkennung 
von künstlichen Objekten bzw. Artefakten (Man-Made Objects) in ange- 
stammter Umgebung, den sogenannten Primärartefakten, sowie von 
sonstigen Szenenstrukturen, die Hinweise liefern könnten (z.B. Spuren, 
Straßen), den Sekundärartefakten. 


2 Diese Unterscheidung zwischen »spezialisierten« und »natürlichen« Bildern ist 
(Bunke, et al., 1987) entnommen. 
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Beide zu erkennenden Strukturen werden im Folgenden zusammenfas- 
send als Artefakt (durch den Menschen verändert) bezeichnet. Unter ei- 
nem Artefakt versteht man allgemein »das durch menschliches Können 
Geschaffene bzw. ein Kunsterzeugnis« (DUDEN). Damit ist also nicht etwa 
das Verständnis eines Artefakts im nachrichtentechnischen Sinne als 
Störsignal 0.4. gemeint. Gleichwohl kann der Standpunkt vertreten wer- 
den, dass ein Artefakt stets als eine Art »Störung« im Hinblick auf einen 
natürlichen/angestammten Hintergrund angesehen werden kann. 


Die folgende Abbildung soll die verwendeten Begriffe erläutern: zu sehen 
ist eine Luftbildaufnahme eines IR-Sensors. In der Szene sind als Sekun- 
därartefakte Straßen, Spuren und Stellflächen zu erkennen. Es liegen fer- 
ner zwei Primärartefakte in Form von Fahrzeugsignaturen (ein kaltes 
und ein warmes Fahrzeug) vor. Die Fahrzeugsignaturen, vor allem die 
des kalten Fahrzeugs, sind kontrastschwach. Es ist ferner zu beobachten, 
dass die Fahrzeuge in der Szene nicht »irgendwo« stehen, sondern Hin- 
weise aufihren Aufenthaltsort durch die Sekundärartefakte gegeben 
sind. 


Die Szene demonstriert, dass die Fahrzeuge als Zielobjekte auch vom 
Menschen nur bzw. zuverlässiger detektiert werden, wenn die durch sie 
generierten Veränderungen in der Szene, also die Spuren, berücksichtigt 
werden. Damit wird auch die Nutzung von a priori Wissen aufgezeigt so- 
wie generell die Einbeziehung des Kontexts bzw. der Kausalität (Dreh- 
buch, aufeinander abgestimmte Ereignisse) verdeutlicht. 
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Stellfläche 


Spuren 


Straße 


Abbildung 1-3: IR-Beispielbild, Bild: IOSB 


Artefakte entstehen in einer Szene bzw. im Bild durch Objekte oder aus 
deren Spuren. Eine Spur eines Objekts stellt jede Veränderung der Szene 
dar, die mit dem bildgebenden Sensorsystem erfasst werden kann, also 
eine Veränderung des (Bild-) Hintergrunds. 


Mit physikalisch gegebenen Spuren im Szenenbereich kann man nur un- 
ter bestimmten Voraussetzungen rechnen (z.B. loser Untergrund). Viele 
Szenen spielen sich jedoch in Innenraumbereichen ab, sodass mit keiner 
physikalischen Spurbildung zu rechnen ist. In manchen dieser Fälle kann 
eine virtuelle Spur durch die Berechnung einer Trajektorie konstruiert 
werden. Abgesehen vom Erscheinungsbild kann auch die Analyse der 
(virtuellen) Spur Auffälligkeiten (z.B. im Bewegungsverhalten) aufwei- 
sen. 
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Die folgende Abbildung (ein Fahndungsfoto der Polizei) verdeutlich 
diese Überlegungen: eine Person, die einen Banküberfall anstrebt, wird 
sich anders verhalten als eine Person, die ihren Bankgeschäften nachge- 
hen möchte. Ebenso ist, wie im Beispielbild, davon auszugehen, dass die 
Zielperson bezüglich ihres Erscheinungsbilds Auffälligkeiten gegenüber 
regulären Bankkunden aufweist (z.B. durch das Tragen einer Maske). 


Jedes künstliche Objekt einer Szene stellt also ein Szenenartefakt, d.h. ein 
Artefakt im Szenenbereich dar. Erfasst ein bildgebender Sensor die 
Szene mit den enthaltenen Szenenobjekten, so resultiert ein Szenenarte- 
fakt ggf. in einem Bildartefakt im Bildbereich. 


Abbildung 1-4: Banküberfallszene. Bild: öffentliches Fahndungsfoto der 
Polizei 


Es liegen also folgende Korrespondenzen vor: 
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e Szenenbereich > Bildbereich (Messwerte eines bildgebenden 
Sensors). 


e MMO > primäres Szenenartefakt > primäres Bildartefakt. 
e Analog: Objektspuren als sekundäres Szenenartefakt. 


Auf der Basis der Erkenntnis, dass die »Spezialisierung« ein Schlüssel 
zum Auswerteerfolg ist, werden Möglichkeiten zur Spezialisierung ge- 
sucht und ausgenutzt. Damit ordnet sich diese Arbeit in den Bereich zwi- 
schen der Auswertung von hochspezialisierten Bildern (z.B. industrielle 
Bildauswertung) und Alltagsbildern ein. 


1.3 Bildhintergrund 


Neben den Zielobjekten stellt der Szenenhintergrund ein wichtiges Phä- 
nomen dar, weil Zielobjekte mit dem Hintergrund wechselwirken (z.B. 
durch Fahrzeugspuren). Traditionell wird dem Hintergrund nur in Son- 
deranwendungen eine besondere Bedeutung beigemessen (z.B. im Be- 
reich der Tarnung und Täuschung), demgegenüber wird der Hintergrund 
bei herkömmlichen Bildauswerteansätzen als »Störgröße« angesehen, 
die insbesondere aufgrund von sogenanntem »Clutter« (zielobjektahnli- 
che Hintergrundsignatur) unerwünschte Falschdetektionen verursacht. 
Die meisten Ansätze konzentrieren sich auf die Modellierung der Zielsig- 
naturen, weniger auf den Hintergrund. Diese Ansätze sind aus mehreren 
Gründen unzureichend: sie ignorieren die Wechselwirkungen von Ziel- 
signatur und Hintergrund und verschenken daher wertvolle Hinweise. 
Die Vorbehalte gegen eine Analyse des Hintergrunds liegen an der 
»Closed World Assumption«, wobei argumentiert wird, die Vielfalt mög- 
licher Zielsignaturen sei klein im Vergleich zur Vielfalt möglicher Hinter- 
grundsignaturen, was eine Hintergrundcharakterisierung erschwere. 
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1.4 Backtracking 


Der Begriff »Backtracking« wurde vom amerikanischen Mathematiker 
D.H. LEHMER (1905-1991) im Zuge seiner Studien von speziellen Prim- 
zahlen geprägt (Lehmer, 1957). Im Bereich der Informationsverarbei- 
tung stellt Backtracking einen rekursiven Algorithmus dar, der eine Ver- 
feinerung einer erschöpfenden depth-first-Suche realisiert. Als solcher 
findet er häufig Anwendung bei Constraint Satisfaction-Problemen. 


Das traditionelle Vorgehen von Detektions- und Erkennungsverfahren 
besteht in der Bilderfassung, Vorverarbeitung, Merkmalextraktion und 
Klassifikation. Das entspricht einer starren, sequentiellen Methodik. 


Dieses starre Vorgehen erhielt positive Erweiterungen durch iterative 
Verfahren, von denen man im Wesentlichen 3 Klassen identifizieren 
kann: 


1. Ansätze, die diskrete Abstufungsintervalle bzgl. der Bildauf- 
lösung betrachten, mit dem prominenten (und im Bereich 
der Bildverarbeitung ersten) Beispiel der Auflösungspyra- 
miden in diskreten Zweierpotenzen (Burt & Adelson, 1983). 
Allgemeiner gefasst, die diskreten Filterbänke sowie An- 
sätze mit kontinuierlichen Abstufungsintervallen (Skalen- 
raumanalyse & Wavelets). 


2. CFAR3-Ansätze, siehe Abschnitt 3.8.1. 


3. Ansätze, die auf A. M. LJAPUNOV (1857-1918) zurückgehen, 
welcher in seiner Dissertation 1892 dynamische (iterative) 
Systeme studierte und welche die Markov-Modellansätze 
beeinflussten. Markov legte eine Grundlage für bestimmte 
Formen Künstlicher Neuronaler Netze (KNN), insbesondere 
für die rückgekoppelten Hopfield-Netze (Hopfield, 1982) 
und den iterativen Ansatz im Ising-Modell (Ising, 1925). Da- 
mit wurden ebenso die Grundlagen für neuere Ansätze zur 


3 CFAR: Constant False Alarm Rate. 
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Optimierung von Energie-/Entropiefunktionen gelegt (pro- 
minente aktuelle Beispiele: Mumford-Shah Energie-Funktio- 
nal, Snakes und »Aktive Konturen«). 


Der Begriff »Backtracking« soll sich in dieser Arbeit jedoch nicht auf lo- 
kale Iterativität ein und desselben Verfahrensansatzes beziehen, sondern 
im Sinne von »nochmaliger Inspektion«, ggf. mit einem anderen Ansatz 
(bzw. Software-Agenten). Dazu wird ein Optimierungs- bzw. Bewer- 
tungsmodul benötigt, um die Selektion und Parametrierung vornehmen 
zu können. Das Schema des verfolgten Backtracking-Ansatzes in der Ein- 
richtphase verdeutlicht die folgende Abbildung. 


Bild- ATR-Verfahren |—— Ergebnis | Bewertung 
i 4 A 


Optimierung |, 
Selektion & Parameter 


Vorverarbeitungs- Merkmal- 
routinen extraktoren 


Klassifikatoren Grundwahrheit 


(Ground Truth) 


Abbildung 1-5: Backtracking-Schema 


1.5 Konzeptioneller Rahmen 


Bereits 1978 wurde ein Systemkonzept vorgeschlagen, um aufgabenun- 
abhängige Aspekte des Bildverstehens zu strukturieren (Kanade, 1978, S. 
95-105). Dabei wird insbesondere zwischen dem Bild- und dem Szenen- 
bereich unterschieden. 
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= View Picture Domain 
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Instantiated Scene Domain 
Model Clues 
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Abbildung 1-6: »A Scheme of Image Understanding« 


Dieser Entwurf erfuhr bald Erweiterungen (Nagel, 1979, S. 90-96) und 
wird auch in der Folge beachtet; z.B. (Daniilidis, 1992), (Müller M., 
2001). 


Als »Szenenbereichshinweise« werden in dieser Arbeit Kollateral- bzw. a 
priori Informationen bezeichnet. »Bildbereichshinweise« liegen in Form 
von Ziel- und Hintergrundsignaturen vor. 
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Semantik 


3D-Sze 


Physik 


2D-Bildbereich 
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Signal 


Abbildung 1-7 


nenbereich 


Generische Beschreibung 
Parametrisierte Modelle für Szene, 
Beleuchtung und abbildendes System 


Partiell ausgeprägte 
Modelle, Prototypen 


Szenenbereichshinweise 


Szenenprojektion, 
Szenenskizze, 
synthetisches Bild 


Bildbereichshinweise 


digitalisiertes Bild 


Interpretationsszenar nach Kanade & Nagel, mit Erweite- 
rungen (Daniilidis, 1992) 
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2 Szenarien 


In diesem Abschnitt sollen Beispielszenarien und das auszuwählende 
Szenar besprochen werden. Die Zielsetzung ist, auffällige Aspekte in Sze- 
nen zu erfassen. Dabei wird davon ausgegangen, dass gewisse, sich in der 
Szene verändernde Bestandteile keinem Naturspiel, sondern einer Ab- 
sicht eines Akteurs unterliegen. Problematische Absichten zeichnen sich 
im Gegensatz zu alltäglichen Handlungen zumeist durch Besonderheiten 
und damit eine gewisse Auffälligkeit bzw. eine wahrnehmungsphysiolo- 
gische Salienz aus. Die wesentliche Charakteristik einer Salienz ist es, 
dass sich messbare Eigenschaften (z.B. einer Person, eines Objekts, eines 
Verhaltens) aus der Szene bzw. dem Szenenablauf herausheben und da- 
her für den Menschen, aber auch für die Maschine, leichter bzw. über- 
haupt erfassbar sind. Das nennt man gemäß der Musterintegrationstheo- 
rie auch »Pop-Out-Effekt«. 


Die Erfassung von Auffälligkeiten stellt eine Ergänzung zur auftragsge- 
steuerten Bildauswertung dar (Monari, 2011). Bei der auftragsgesteuer- 
ten Bildauswertung wird dem Sicherheitssystem die Motivation der zu 
überwachenden Person direkt mitgeteilt. Z.B., wenn eine Zielperson ein 
Foyer einer Unternehmung betritt, sich anmeldet und einen Besuchs- 
wunsch äußert, was dann auch den weiteren, zu erwartenden Bewe- 
gungspfad der Zielperson festlegt und dem Überwachungssystem in 
Form eines »Auftrags« a priori mitgeteilt wird. 


Klassische Bildauswerteansätze versuchen, die Zielobjekte direkt zu er- 
fassen und sehen Begleitstrukturen, wie z.B. Spuren, zurückgelassene 
bzw. weggeworfene Dinge/Gegenstände, etc. als irrelevante, ggf. stö- 
rende Artefakte an, die es herauszufiltern gilt. Vorliegend sollen jedoch 
genau diese Artefakte als Hinweislieferant auf die Szenenbestandteile 
dienen, die als relevant anzusehen sind. 
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Spuren können physikalischer Natur sein, wie z.B. Fuß- und Fingerab- 
drücke oder die Spuren von Reifen auf entsprechendem Untergrund. Um 
physikalisch hinterlassene Spuren zu detektieren, werden spezialisierte 
(Software-) Agenten benötigt, welche die jeweils dedizierte Bildauswer- 
teaufgabe übernehmen. Dabei sind folgende Einflussfaktoren zu berück- 
sichtigen: 


e Artder Spur (Reifenspuren, Finger- oder Fußabdrücke) 


e Sensorcharakteristik (insbesondere spektraler Erfassungsbe- 
reich und optische Parameter) 


e Aufnahmeparameter (u.a. Aufnahmewinkel, Entfernung, ...) 


e Szenencharakteristik (u.a. Beleuchtung, Hintergrund, Gesche- 
hen...) 


Es wird mindestens ein spezialisierter Ansatz (»Softwareagent«) zur Er- 
fassung einer speziellen Auffälligkeit benötigt. Aus der offensichtlichen 
Variabilität der Einflussfaktoren folgt, dass ein Erfassungssystem, wel- 
ches viele unterschiedliche Situationen verarbeiten können soll, rasch 
äußerst umfangreich wird. Es ist also, ähnlich wie bei der auftragsorien- 
tierten Szenenerfassung erforderlich, einen Systemansatz inklusive Sys- 
temarchitektur zu realisieren, der eine möglichst hohe Generalisierbar- 
keit und Erweiterbarkeit aufweist. Als Systemansatz wird daher vor- 
geschlagen: 


e Implementierung verschiedener Auffalligkeitsdetektoren, die 
generelle »Auffälligkeiten« im Bild erkennen sollen. 


e = Ist eine Auffälligkeit detektiert worden, werden in Abhängigkeit 
der Aufgabenstellung entsprechende spezialisierte Ansätze pa- 
rametriert und gestartet. Die Parametrierung beinhaltet insbe- 
sondere den Ort in der Szene, in dem sich die Auffälligkeit ab- 
spielt. 


e Die spezialisierten Softwareagenten liefern Hinweise inklusive 
Wahrscheinlichkeiten und Gütemaße. 
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e In Abhängigkeit von der getroffenen Auswahl könnten wiede- 
rum spezialisierte Softwareagenten parametriert und gestartet 
werden, die sich um eine weitergehende Analyse kümmern. 


2.1 Banküberfallszene 


Eine Person, die einen Banküberfall anstrebt, wird sich anders verhalten 
und bewegen als eine Person, die ihren gängigen Bankgeschäften nach- 
gehen möchte. Ebenso ist zumeist davon auszugehen, dass auch schon 
das Erscheinungsbild der Zielperson Auffälligkeiten (z.B. eine Maske) 
aufweist. 


Realweltliche Banküberfallszenen basieren häufig auf schlechter Video- 
bildqualität (oftmals immer noch nur Grauwertkameras) und an die ei- 
gentlichen Bildfolgen ist sehr schwer heranzukommen. Wenn, dann kann 
man nur mit sehr kurzen Clips rechnen. Zumeist liegen jedoch nur Ein- 
zelbilder in der Form von Fahndungsfotos vor. 


Die dem Fraunhofer IOSB vorliegenden Bild- und Videodaten vom BKA 
(Bundeskriminalamt), siehe Abbildung 1-4, unterliegen der Geheimhal- 
tung und dürfen nicht veröffentlicht werden. Daher scheiden sie für wei- 
tere Betrachtungen aus. 


2.2 Szene Hooligans 


Hooligans sind gewaltbereite Personen, die sich (z.B. im Fußballstadion) 
im Vergleich zu Fußballinteressierten auffällig bewegen bzw. auffällige 
Handlungen vollziehen. So kann ein Hooligan sich aus der Menge seiner 
Kumpane herausbewegen, eine Handlung vornehmen (z.B. einen Gegen- 
stand werfen) und sich wieder in die Menge seiner Kumpane zurückzie- 
hen. Auch die Erfassung solcher Szenen ist von hoher Bedeutung für Si- 
cherheitskräfte (Stadionpersonal, Polizei), da zahlreiche Auffälligkeiten 
in ihnen zu finden sind. Das ist erkennbar an den globalen Auffälligkeiten 
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bzgl. (hochfrequentem) Bewegungsverhalten der Hooligans, sowie z.B. 
der Entzündung von bengalischen Feuern (vgl. Abbildung 2-1). Dem 
Fraunhofer IOSB liegen auch für diese Szenen Beispielvideos vor, die je- 
doch für eine Veröffentlichung (insbesondere aus datenschutzrechtli- 


chen Gründen) nicht freigegeben sind. 


Abbildung 2-1: Szenen von Hooligans im Fußballstadion bei rechtswidri- 
gen Handlungen, Bilder: Reuters 


2.3 Szene Fahrzeugspuren 


In Abbildung 1-3 sind zwei sehr kontrastschwache Zielobjekte präsent, 
deren Signatur man auch als Mensch kaum entdecken kann. Von den ei- 
gentlichen Zielobjekten geht also keine Salienz aus. Auffällig sind jedoch 
die Spuren im Gelände. Der Mensch, so er mit der Suche nach den Fahr- 
zeugen beauftragt ist, würde entlang der sichtbaren Spuren suchen, denn 
nur dort können sich die Fahrzeuge aufhalten. Die Spuren stellen also 
keine Störeinflüsse dar, sondern sie sind vital, um die Entdeckungsauf- 
gabe zu lösen. 


Entsprechende Daten liegen dem IOSB vor und werden beispielhaft ver- 
wendet. Sie sind auch deshalb geeignet, weil damit die Integration in das 
ABUL-System, welches später noch vorgestellt wird, naheliegender ist. 
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2.4 Szene herrenloses Gepäckstück 


Gegeben ist eine Szene mit Publikumsverkehr. Es handelt sich also um 
eine dynamische, sich ständig verändernde Szene. Dabei sind die meisten 
Veränderungen irrelevant. Ziel hier ist es, eine statische Veränderung in 
einer dynamischen Szene zu detektieren. Vorliegend wird ein Gepäck- 
stück (Trolley) abgestellt und dann verlassen. Bevor dieses Gepäckstück 
abgestellt wird, muss es von einer Person zunächst an den Abstellungs- 
ort verbracht werden. Da sich diese Szene nicht in natürlicher Umgebung 
abspielt, werden keine Spuren von der Person hinterlassen. Dennoch 
können Spuren in Form von Trajektorien, generiert durch Multi-Target- 
Tracker, computerintern simuliert werden. 


Diese Detektion herrenloser Gepäckstücke in dynamischen Szenen ent- 
spricht der Detektion eines Diebstahldelikts, d.h. der Entfernung eines 
Objekts aus einer (dynamischen) Szene. 


Die Szenen wurden von freiwilligen Mitarbeiter(innen) des Fraunhofer 
IOSB gestellt und mit entsprechender eigener Sensorik aufgenommen. 
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Abbildung 2-2: Leere Szene (oben links), Szene mit dynamischen Verän- 
derungen (herumlaufende Personen, oben rechts), Frau 
mit einem durch die Szene gezogenen Gepäckstück/Trol- 
ley (unten links) und unbeaufsichtigtes Gepäckstück (un- 
ten rechts), Bilder: IOSB 
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3 = Salienz/Auffalligkeit 


Zunächst wird auf den Begriff der »Auffalligkeit« eingegangen. Der An- 
satz beruht in Teilen auf Vorarbeiten von (Korn A. , Toward a Symbolic 
Representation of Intensity Changes in Images, 1988), die u.a. in Bezug 
auf die Auffälligkeitsdetektion in (Korn A. , Verarbeitung und 
Auswertung von Signalen bildgebender Sensoren, 1995) konkretisiert 
und u.a. in (Korn, Müller, & Sung, Computer-Augmented Detection of 
Targets in Cluttered and Low-Contrast Backgrounds, 1997) bzw. (Miller 
& Korn, Automatic Target Detection in Cluttered IR Images, 1999) auf 
Anwendungen bezogen wurden. Neben den Korn‘schen Ansätzen wer- 
den im Folgenden weitere Ansätze erläutert und einer einordnenden Kri- 
tik unterzogen. 


3.1 Unterscheidung Salienz vs. Auffalligkeit 


Grundsatzlich sind die Begriffe »Salienz« bzw. »Auffalligkeit« nicht an- 
wendungsunabhängig definierbar. Auffälligkeiten von Objekten in Ein- 
zelbildern zeichnen sich durch eine Kontrastierung gegen den Hinter- 
grund aus (z.B. aufgrund ihrer Form, Farbe...), wohingegen sich Auf- 
fälligkeiten in Bildfolgen häufig durch Änderungen in der Szene über die 
Zeit (z.B. ein sich bewegendes Objekt) auszeichnen. Komplexer wird der 
Fall bei mobilen Sensorträgern, da dann ständig Änderungen im Bildbe- 
reich auftreten, die aber nicht mit einer Änderung im Szenenbereich kor- 
respondieren. In diesen Fällen ist die Eigenbewegung des Sensors zu 
schätzen und entsprechend herauszurechnen. Schließlich gibt es auch 
noch den Fall von Änderungen in Szenen, wobei jedoch nur an bestimm- 
ten, gemäß einem Kriterium als auffällig angesehenen Änderungen (z.B. 
statischen) ein Interesse bestehen könnte. Als Beispiel für eine statische 
Änderung in einer dynamischen Szene seien das Abstellen und der Ver- 
bleib von Fahrzeugen im Szenenbereich genannt. 
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Eine Änderung/Auffälligkeit kann sich auf folgende Aspekte beziehen: 


a) Episodische Änderungen, d.h. ein kurzer Abschnitt in einem län- 
geren Prozess. 


b) Abrupte bzw. spontane Änderungen. 


c) Repetitiv, d.h. wiederkehrende, sich wiederholende Änderun- 
gen. 


d) Phänologisch!, d.h. Änderungen, die sich im natürlichen Jahres- 
ablauf ergeben. 


Der Pop-Out-Effekt wurde schon angesprochen. Bei diesem Effekt 
springt ein Zielobjekt (»Target«) aus mehreren Ablenkobjekten (Distrak- 
toren, Clutter) heraus. Das aufgrund seiner Zitierhäufigkeit wahrschein- 
lich bekannteste Modell »FIT - Feature Integration Theory« geht von ei- 
nem mehrstufigen Wahrnehmungsprozess aus, was gleichermaßen von 
Psychologen, Neurophysiologen und Informatikern anerkannt wird 
(Treisman & Gelade, A Feature Integration Theory of Attention, 1980). 
Die Umsetzung entsprechender Computermodelle finden sich z.B. in (Itti, 
2003). 


Die FIT geht davon aus, dass der Mensch in der frühen Phase der Merk- 
maldetektion vier Merkmale wahrnimmt (Farbe, Orientierung, Größe 
und Distanz), ohne seine Aufmerksamkeit zu steuern. Die Aufmerksam- 
keit wird dann dazu verwendet, Merkmale zu koppeln. Dabei wird Ob- 
jekt für Objekt einzeln auf der Basis seines Ortes codiert. Gekoppelt wer- 
den alle Merkmale, die an dem jeweiligen Zielort erkannt werden. Die 
Merkmale werden durch spezialisierte Module parallel codiert. Die Mo- 
dule bilden zwei Arten von Karten: 


a) Merkmalskarten (engl. Feature Maps): In diesen Karten wird 
festgehalten, ob die Präsenz eines Merkmals irgendwo in der 


1 Phänologie«: Lehre von den Erscheinungen des jahreszeitlichen Ablaufs in der 
Pflanzen- u. Tierwelt (DUDEN, 21. Aufl.) 
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Szene (bzw. im Bild) gegeben ist. Räumliche Aspekte werden 
nur implizit festgehalten. Eine solche Karte gibt keine Aussage 
über die Lokalisierung oder darüber, über welche anderen 
Merkmale ein z.B. rotes Objekt noch verfügt. 


b) Ortskarte (Hauptkarte): Diese Karte codiert, wo Merkmale loka- 
lisiert sind, jedoch nicht welche Merkmale wo zu finden sind. 


Man benötigt also einen Weg, um Merkmale zu lokalisieren und zusam- 
mengehörige Merkmale zu identifizieren. Die fokale Aufmerksamkeit soll 
diese Aufgabe übernehmen. Die Aufmerksamkeit wandert in der Orts- 
karte umher (via Fokus) und wählt die Merkmale aus, die mit dem jewei- 
ligen Ort des Betrachtungsfokus assoziiert sind. Merkmale anderer Ob- 
jekte werden dabei ausgeklammert. Wahrgenommene Merkmale bilden 
dann eine temporäre Objektrepräsentation. 


Orientierung 


Abbildung 3-1: Parallel erkannte Merkmale, als Merkmalskarten darge- 
stellt (Treisman, Features and Objects in Visual 
Processing, 1986) 


In weiteren Phasen werden (ggf. weitere) erkannte Merkmale kombi- 
niert und damit eine Erkennung durchgeführt. 
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Abbildung 3-2: Demonstration des Pop-Out-Effekts bzw. einer Salienz ge- 
mäß Musterintegrationstheorie. Zur Detektion des roten 
Quadrats ist gemäß der FIT keine Aufmerksamkeit not- 
wendig 


Wenn von »Auffälligkeitsdetektion« die Rede ist, dann ist damit die 
Kennzeichnung von einzelnen Bildregionen als »auffällig« gemeint. Es 
handelt sich also im Grunde um einen Segmentierungsschritt in einem 
frühen Stadium eines Bildinterpretationsprozesses. Das Bild soll in »auf- 
fallige« (d.h. fiir die jeweilige Aufgabenstellung wahrscheinlich rele- 
vante) und »unauffallige« Regionen unterteilt werden. Die als »auffallig« 
angesehenen Bildbereiche werden als ROI (Region of Interest) bezeich- 
net und nur sie dienen als Vorlage für eine weitere, gründlichere Inspek- 
tion durch maschinelle oder menschliche Partizipanten am Auswer- 
tungsprozess. Jeder Segmentierungsansatz benötigt ein Homogenitäts- 
prädikat P, um eventuelle Einteilungen vornehmen zu können. 


3.2 Segmentierung 


Eine Segmentierung soll das Bild in sinnvolle Regionen unterteilen. Bei- 
spielsweise in die Bereiche »Primärartefakt« (Ziel), »Sekundärartefakt« 
(Spur) und »Hintergrund«. Grundlegend ist dabei die Annahme, dass je- 
des Bildsegment einem vorgegebenen Homogenitätskriterium H genügt. 
Die anwendungsbezogenen Ziele ranken sich um: a) Zielsignaturen vom 
Bildhintergrund zu trennen, b) sich überlappende oder angrenzende 
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Zielsignaturen zu trennen oder c) eine (größere) Zielsignatur in wesent- 
liche Bestandteile zu zerlegen. Vorliegend ist a) relevant. Mathematisch 
definiert sich die vollständige Segmentierung des Bildbereichs Q c P? in 
disjunkte Regionen Ric Q, für i = 1,...,.n durch: 


a=| jr, (RnR) =9,vi+j (3.1) 


i=1 
Dabei gilt: 
1. Rizusammenhängend Vi 
2. H(Ri) =trueVi 
3. H(Ri O Ri) = false V i+j 


In das Homogenitatskriterium H fließt auch schon bei trivialen Ansätzen 
(z.B. bei einer bimodalen Verteilungsannahme) zumindest implizites 
Vorwissen ein. 


Auffallig ist, was von einer Art »Norm« abweicht. Gehen wir von Objek- 
ten in natürlicher Umgebung aus, dann stellt die natürliche Umgebung 
die »Norm« dar und die interessierende Bildfigur die »Auffälligkeit«. 
Analog dem Begriff der »Ähnlichkeit« lässt sich auch der Begriff der Auf- 
fälligkeit nicht absolut, sondern nur aufgabenbezogen definieren. (Korn 
A. , Verarbeitung und Auswertung von Signalen bildgebender Sensoren, 
1995) schlug zur Definition der Auffälligkeit vor: 


Wenn sich ein Objekt aufgrund seiner Bewegung, seines Kontrastes, seiner 


Farbe, seiner Form oder seiner 3D-Abmessungen signifikant von seiner 
Umgebung unterscheidet, bezeichnen wir das Objekt als auffällig. 
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Mathematisch sehen wir die Detektion auffälliger Bildbereiche als eine 
spezielle Form der Bildsegmentierung an2, d.h. die Unterteilung des Bild- 
bereichs Q c P? in die disjunkte Region »Hintergrund« H sowie die dis- 
junkten Regionen »Auffälligkeit« bzw. Artefakt Ai, mit {H, Ai C Qs1,..n, 
für die gilt: 


n 
a=Hul)A (HNA)=®Vi#j (3.2) 
i=1 


Die als »auffällig« angesehenen Bildbereiche werden als ROI bezeichnet 
und sie dienen als Vorlage für weitere, gründlichere Inspektionen durch 
maschinelle (oder menschliche) Auswertungen. Die Durchmusterung der 
Bilddaten im Hinblick auf eine Auffälligkeitsdetektion wird Screening ge- 
nannt. Das noch vorzustellende Detektionsverfahren beruht in Teilen auf 
Vorarbeiten von (Korn A., Toward a Symbolic Representation of 
Intensity Changes in Images, 1988), die in Bezug auf die Auffälligkeitsde- 
tektion in (Korn A. , Verarbeitung und Auswertung von Signalen 
bildgebender Sensoren, 1995) konkretisiert und u.a. in (Müller & Korn, 
Automatic Target Detection in Cluttered IR Images, 1999) auf Anwen- 
dungen bezogen wurden. 


3.3 Segemtierung mit Schwellwerten 


Schwellwertverfahren stellen die einfachste Variante zur Segmentierung 
dar. Ein Bildpunkt (bzw. eine Bildregion) gilt als »auffällig«, wenn er ge- 
mäß eines vorgegebenen oder automatisch ermittelten Wertes c über- 
schwellig ist. Das Resultat bei der Anwendung von einem Schwellwert ist 
ein Binär- bzw. Zweipegelbild. Sind mehrere ortsunabhängige Schwell- 


2 Es gibt viele andere Vorstellungen bzgl. der Auffälligkeitsdetektion, z.B. reicht 
es in trivialen Fällen, wenn lediglich die Zielkoordinate angegeben wird. 
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werte ermittelt worden, so spricht man von einem Aquidensitenbild. 
Schwellwertverfahren können wie folgt eingeteilt werden: 


e =©Globaler (ortsunabhängiger) oder lokaler Schwellwert 
e Ein- oder mehrdimensional ermittelter Schwellwert 
e Harte oder Semischwellwertbildung 


e Ein oder mehrere Schwellwerte (Aquidensiten) 


3.3.1 Kontrastschwellwert 


Ein Schwellwert bzgl. Kontrast (Modulation) setzt voraus, dass bekannt 
ist, dass alle Zielobjekte entweder heller oder dunkler als der Hinter- 
grund sind. Der Kontrast bzw. die Modulation der Bildfunktion fnach 
(Hecht, 2009) ist in (3.3) angegeben. Errechnet wird ein Maß dafür, wie 
deutlich lokale Schwankungen von der Grundhelligkeit zu unterscheiden 
sind. 


K= Imax a Imin (3.3) 


Imax + Imin 


In der Praxis nähert man diesen Wert an, indem man die minimale und 
die maximale gemessene Intensität (Grauwert) einsetzt. Diese Kon- 
trastapproximation besitzt jedoch den Nachteil, dass schon einzelne Aus- 
reißer (Übersättigungen, Punktrauschen, Sensor-/Abtastfehler, usw.) 
den approximierten Kontrastwert stark verfälschen können. Ein (maxi- 
maler) Kontrast von 1 ergibt sich bei schwarzem Hintergrund, wenn nur 
ein einziger Bildpunkt den maximal möglichen Grauwert besitzt. 


3.3.2 Kontrastschwellen mit Ausreißertest 


Es ist naheliegend, dass ausreißerbehaftete Messdaten eine erhebliche 
Abweichung bzgl. ihrer Kenndaten (Kontrast, Mittelwert, Standard- 
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abweichung, usw.) aufweisen können. Auch alle aus den Kenndaten ab- 
geleiteten Testgrößen sind dann verfälscht. Als Ausreißer entdeckte 
Messwerte müssen daher aus dem Datenmaterial entfernt werden. Vom 
stochastischen Standpunkt aus gesehen stellen Ausreißer Abweichungen 
aufgrund systematischer und nicht zufallsbedingter Einflüsse dar. 


Der Ausreißertest nach GRAF & HENNING berechnet das arithmetische Mit- 
tel u und die Standardabweichung caus den Daten ohne die ausrei- 
ßerverdächtigen Werte. Ein Wert gilt als Ausreißer, wenn er außerhalb 
des Bereichs u+ 4oliegt. Zur Automatisierung betrachtet man iterativ 
die größten und kleinsten Messwerte. Sobald keiner von beiden mehr 
entfernt wird, gilt das Datenmaterial als ausreißerfrei. 


3.3.3 Kontrastschwellen mit Grauwertübergangs- 
matrizen 


Bessere Ansätze beziehen die Ortfrequenz zur Kontrastapproximation 
mit ein, da sich die Anordnung von hellen und dunklen Bereichen in der 
Ortfrequenz niederschlägt. Grauwertübergangsmatrizen (engl. co-oc- 
curence matrix) Wr berechnen die Häufigkeit des Auftretens von zwei 
Grauwerten bzgl. einer Relation (meistens eine Nachbarschaftsrelation): 


Wr = (91,92) = 4g,,9 (3.4) 


mit R Relation, gi Grauwerte und a Haufigkeit des Auftretens der Grau- 
werte bzgl. R. In (Haralik, Shanugam, & Dinstein, 1973) wurde in diesem 
Zusammenhang (3.5) vorgeschlagen, 


Imax-1 Imax” 


= > M(1 TEREST Ge) 


mit gmax maximal möglicher Grauwert (z.B. 255), M Anzahl möglicher 
Vergleiche. Je weiter aij von der Hauptdiagonalen entfernt ist, desto ge- 
ringer ist sein Gewicht für den Kontrast K. Diese örtliche Abhängigkeit 
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des Kontrastes und Richtungsabhängigkeiten können durch die Wahl der 
Relation R berücksichtigt werden. 


3.3.4 Histogrammmodalität 


Diese Ansätze setzen voraus, dass das Grauwerthistogramm eine gut 
ausgeprägte Modalität aufweist. Das bedeutet, dass die Grauwerte des 
Hintergrundbereichs nicht (oder kaum) im Objektbereich auftreten (und 
vice versa). Liegt ein bimodales Histogramm vor (Zielobjekt z.B. generell 
heller als Hintergrund), so stellt der Schwellwert c das Minimum zwi- 
schen den beiden Maxima dar. Bei multimodalen Histogrammen (Zielob- 
jekt besteht aus Teilen, die jeweils heller als Hintergrund sind) wird ana- 
log nach den n - 1 Minima zwischen den n Maxima gesucht und es wer- 
den entsprechende Äquidensiten gebildet. Die Äquidensiten werden 
auch zur Textursegmentierung verwendet. Der Schwellwert ergibt sich 
aus Texturmaßen. 


3.3.5 Dynamische Schwellwertgenerierung 


Diese Verfahren lassen zwar zu, dass die Intensitäten des Hintergrundes 

inhomogen sind und auch die Intensitäten des Zielobjekts schwanken, je- 
doch wird von einer eher langsamen Änderung der Grauwerte ausgegan- 
gen und zusätzlich, dass sich in jedem kleineren Bereich bimodale Histo- 
gramme ausprägen. 


3.3.6 Ortsabhangige Verfahren (Texturmaße) 


Bei den meisten Schwellwertverfahren wird ein bildpunktbezogenes 
Charakteristikum gewählt (meist: Intensität). Jedoch können auch Ober- 
flächenstrukturen (Textur) bzw. entsprechend angepasste Homogeni- 
tätskriterien (Texturmaße) als Segmentierungsmerkmal verwendet wer- 
den. Häufige Texturmaße sind: 


Streuung: als Maß für die Rauhigkeit einer Textur. 
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Gradienten: Berechnung der Mittelwerte der Beträge und der Richtun- 
gen. Die »Gerichtetheit« einer Textur kann durch die Auswertung der 
Häufigkeitsverteilung der Gradientenrichtungen ermittelt werden. Zur 
Bestimmung einer Vorzugsrichtung reicht oft schon der Mittelwert der 
Gradientenrichtungen. 


Kontrast (Modulation): Die Probleme mit der Kontrastapproximation 
(insbesondere im Hinblick auf Ausreißer) sind bereits angesprochen 
worden. 


Die Schwellwertverfahren zur Erzeugung von Binärbildern gehen von 
der Prämisse aus, dass das zu suchende Zielobjekt generell »heller« oder 
»dunkler« als der Hintergrund ist. Mittels Bildinversion können beide 
Fälle abgedeckt werden. 


3.4 Statistische Hypothesentests 


Bei dem Ansatz mittels statistischem Hypothesentest geht man davon 
aus, dass natürliche Hintergründe (bzw. deren Textur) im Gegensatz zu 
Artefakten eher »zufälligen« Charakter haben. Während man bei einer 
Folge von Zahlen relativ leicht nachweisen kann, dass die Folge nicht zu- 
fällig ist, fällt der Nachweis, dass eine Folge zufällig ist, schwerer. 


Für den Test, ob eine rechnergenerierte Zahlenfolge nicht zufällig ist, 
wird sehr häufig der Y-Test verwendet (Sedgewick & Wayne, 2011). 
Dieser Test prüft, ob eine zufällige Verteilung der Zahlen vorliegt oder 
nicht (3.6). Das Bild istin überlappende Parzellen aufzuteilen, wobei 
eine Parzelle die Größe des gesuchten, beliebig orientierten Artefakts 
hat. Für jede Parzelle wird der Test angewendet: 


Be 


y= 7 (3.6) 
r 
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mit der Anzahl N aller Bildpunkte in einer Parzelle und N<r (maximal 
vorkommender Pixelwert plus 1) sowie hi der Häufigkeit des Pixelwerts 
i. Falls die Z -Statistik außerhalb des Bereichs von 2yr liegt, wird der 
Parzelle die Hypothese »Artefakt enthalten« unterstellt. 


3.5 Extraktion global auffälliger Strukturen 


Als »global auffällige Strukturen« bezeichnet (Ullman, 1995) solche Bild- 
figuren, welche die Aufmerksamkeit des Betrachters unmittelbar auf sich 
lenken. Und zwar, ohne dass das Bild vom Beobachter systematisch un- 
tersucht werden müsste. Ullman unterscheidet lokal auffällige Struktu- 
ren von global auffälligen Strukturen. Erstere zeichnen sich durch auffäl- 
lige Unterschiede gegenüber benachbarten Elementen aus (z.B. Farbe, 
Orientierung, Kontrast oder Krümmungsverhalten). Letztere bestehen 
aus Einzelelementen, die jeweils für sich genommen keine lokale Auffäl- 
ligkeit besitzen, deren Arrangement jedoch eine »figurähnliche« und so- 
mit auffällige Gestalt annehmen. Abbildung 3-3 zeigt dazu beispielhaft 
ein Arrangement lokal unauffälliger Einzelelemente, die in einer global 
wahrnehmbaren Auffälligkeit resultieren. Die Abbildung lehnt sich an ei- 
nen Vorschlag von (Ullman, 1995) an, kommt jedoch mit weniger Stri- 
chelementen aus. 
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Abbildung 3-3: Beispiel für eine global auffällige Struktur eines Rings in 
einem Zufallsmuster 


Im Folgenden geht Ullman von Konturbildern aus, die z.B. aus extrahier- 
ten Linien oder Kanten zugrundeliegender Bilder gewonnen wurden. Das 
Verfahren definiert zunächst ein Auffälligkeitsmaß, welches sich mit der 
Konturlänge vergrößert und welches sich bei Krümmung der Kontur 
verkleinert. Darüber hinaus wird ein Schema vorgeschlagen, welches 
Kantenelemente zu erweiterten Konturen zusammenfügt. Die Gruppie- 
rung von Konturelementen zu (glatten) Kurven ähnelt dem Begriff der 
»guten Fortsetzung« der Gestaltschule im Kontext der Wahrnehmungs- 
psychologie. 


Sei J eine einzelne (ggf. unterbrochene) Kontur beliebiger Länge im Bild. 
Diese Kontur bestehe aus einer Kette kleinerer Konturelemente. Sei p ein 
Punkt der Kontur, dann empfiehlt sich das folgende Auffälligkeitsmaß 
am Punkt p: 


Sr(p) = = WiQi (3.7) 


wobei @ die lokale Auffalligkeit des i-ten Elements entlang der Kurve 
darstellt. Im einfachsten Fall könnte g den Wert 1 annehmen, wenn das 
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Konturelement präsent ist und ansonsten (d.h. bei einer Lücke) den Wert 
0. Komplexere Berechnungen von gi könnten z.B. die Länge des betrach- 
teten Konturelements berücksichtigen. Die Gewichte wi des i-ten Ele- 
ments berechnen sich aus w; = ei, mit c; = f K? und K als Krümmung 
an dem betrachteten Punkt. 


Die globale Auffälligkeit summiert über die Länge der Kontur und ihrem 
Krümmungsverhalten diese lokalen Werte auf. D.h. ci stellt die gesamte 
Krümmung der Kontur von Punkt p bis zum i-ten Element dar. Die Ge- 
wichte wi haben einen Wert von 1 bei Punkten auf einer geraden Linie 
und verringern sich monoton mit zunehmender Krümmung. Für eine be- 
stimmte einzelne Kurve ergibt sich die gesamtbetrachtete Auffälligkeit 
am Punkt p durch (3.8). Berechnet wird also das Maximum aller mögli- 
chen Kurven im Bild, welche am Punkt p terminieren. 


S(p) = max, (S¢(p)) (3.8) 


Für praktische Berechnungen wird die Kurvenlänge der zu betrachten- 
den Kurven aufeinen Wert N limitiert: 


S(p) = max; m(Scmy(P)) (3.9) 


wobei /y für alle Kurven mit maximaler Länge N steht. Zur Bestimmung 
der auffälligen Figur müssen also alle möglichen Kurven (beschränkt auf 
eine Maximallänge N) durch alle Konturelemente gebildet werden und 
danach das Auffälligkeitsmaß berechnet werden. 


3.6 Varianzen 


Bei dem Ansatz mittels Varianzen geht es darum, einzelnen Bildpunkten 
das Attribut »auffällig« zu geben, wenn der Bildpunkt eine relativ hohe 
Varianz bzgl. seiner Nachbarschaft (quadratische Parzelle ungeradzahli- 
ger Größe) aufweist. Im Ergebnis errechnet sich das Varianzbild V ge- 
mafs: 
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m-1 m-1 
V(x,y) = p(x +k-i,y+k-j)- p (3.10) 


i= 0 


Ni 
Il 


m 


=, m = 3,5, 7,...und p arithmetisches Mittel. Im Anschluss da- 


ran definiert ein auf Trainingsbildern empirisch ermittelter Schwellwert 


mit k = 


oder ein Schwellwertindex (der n héchsten Varianzen) die tiberschwelli- 
gen Varianzen und somit die als »auffallig« zu klassifizierenden Bild- 
punkte. 


Dieser Ansatz wird auch als einfaches Mittel zur Bewertung der Sensor- 
bzw. Bildqualitat verwendet: Die Varianzen der Zielsignaturen werden 
mit denen des Hintergrunds verglichen. Sind beide Kenngrößen in etwa 
gleich groß, dann gilt das Bild als »relativ schwer auswertbar«. Ein signi- 
fikanter Unterschied beider Kenngrößen deutet auf ein »relativ leicht 
auswertbares« Bild hin. 


3.7 Dynamische Systeme 


Im Allgemeinen beschreiben dynamische Systeme physikalische Pro- 
zesse mit zeitlichem Veränderungsverhalten. Iterative Ansätze zur Bild- 
auswertung konsultieren den Bildbereich nicht nur einmal, sondern wie- 
derholt. Die Ergebnisse der einen Auswertung parametrisieren weitere 
Durchläufe. Auf diese Weise kann iterativ Kontextinformation gesammelt 
und für den nächsten Durchlauf genutzt werden. Letztlich stellen die 
schon seit langem bekannten Skalenräume eine Variante iterativer Ver- 
fahren dar: die Ergebnisse der Auswertung einer Skalenebene paramet- 
rieren die Auswertung der nächsten. 


Eine der theoretischen Grundlagen für diese Ansätze liefert die in der 
Bildauswertungsgemeinde selten erwähnte Stabilitätstheorie von A.M. 
LJAPUNOV (1857-1918), welcher in seiner Dissertation 1892 dynamische 
(»iterative«) Systeme [S, r"] betrachtete: 
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DEFINITION: Ein dynamisches System [S, r”] besitzt einen Zustandsraum $ 
und eine Funktion rz(x), welche die (zeitliche) Entwicklung der Zustände 
x e Sbeschreibt, den der Zustand x zum Zeitpunkt n einnimmt. 


Der Zustand s ist im Gleichgewicht, falls sich s zeitlich nicht mehr ändert, 
er heißt stabil, falls kleine Änderungen bei ihm keinen beträchtlichen 
Einfluss auf dessen zeitliche Entwicklung nehmen und er heißt asympto- 
tisch stabil, wenn sich der Zustand nach einer Änderung zeitlich-asymp- 
totisch wieder dem Ausgangszustand annähert. Asymptotische Gleichge- 
wichtszustände werden in der Chaos-Theorie sowie im Bereich der 
rückgekoppelten Neuronalen Netze (z.B. Hopfield-Netze, Boltzmann-Ma- 
schinen) auch Attraktoren genannt. Diese Zustände sind erwünscht, 
wenn es sich um Minimierungsprobleme handelt: 


DEFINITION: Sei [S, r"] ein dynamisches System. Eine Funktion E(S), mit 
SP heißt Ljapunovfunktion für das dynamische System & E(r"(s)) mit 
wachsendem n monoton fallend ist. Für beliebige Zustände s und n, n‘, 
mit n‘ > n gilt dann E(r”‘(s)) < E(r"(s)). 


Eine solche Ljapunovfunktion wird in der physikalisch orientierten Lite- 
ratur zumeist »Energiefunktion« (E) genannt. Wesentlich ist noch die Be- 
trachtung der Stabilität des Systems: 


STABILITÄTSTHEOREM VON LJAPUNOV: Sei E eine Ljapunovfunktion für [S, r7]. 
Wenn E fiir s ein lokales Minimum besitzt, dann ist s stabil. 


Die Stabilitätstheorie spielt eine wesentliche Rolle bei diversen Ansät- 
zen, wie z.B. bei Lernstrategien, den Markov-Ketten, Minimierungen von 
Energiefunktionen, dem Ising-Modell, bis hin zu Funktionalen, wie dem 
Mumford-Shah-Ansatz. 
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3.8 Segmentierung mit Funktionalen 


Falls kein explizites Zielobjektmodell spezifiziert werden kann (oder 
soll), eignen sich Funktionale zur Einbeziehung von Information in den 
Detektionsprozess. In diesen Fällen werden globale Informationen über 
die im Bild zu detektierenden Modelleigenschaften in Form von Bedin- 
gungen (constraints) artikuliert. Die Bedingungen werden als zu mini- 
mierendes Funktional ausformuliert. Ein solches Funktional besteht aus 
einem Term zur Berechnung der Ähnlichkeit von Modell- und Bildmerk- 
malen (und damit einer Art Beschränkung, die das Modell zwingt, so 
ähnlich wie möglich zu sein) sowie einem Term zur graduellen Anpas- 
sung des Modells (und damit einer langsamen, kontinuierlichen Verän- 
derung des Modells). Zielobjektsignaturen werden sich aufgrund irgend- 
welcher Diskontinuitäten vom Bildhintergrund abheben (Kontrast, 
Farbe, Textur, ...). Es macht also Sinn, diese Übergänge gesondert zu be- 
handeln. Eine einfache Ähnlichkeitsfunktion ist gegeben durch 

llu — uoll2, mit u zu berechnendem Merkmal (Bild, Detektions- oder Seg- 
mentierungsergebnis usw.) und uo Ausgangsbild bzw. -merkmal. Das In- 
tegral der Ableitung zwischen beiden wird mit der L2-Norm berechnet, 
indem u angepasst wird. Ein Beispiel eines Terms zur graduellen Anpas- 
sung realisiert 


|Zu]? (3.11) 


mit ggf. der Einschränkung auf Bildbereiche ohne Berücksichtigung der 
Diskontinuitäten. Diese werden mit einem weiteren Term dadurch ins 
Spiel gebracht, dass man den Beitrag der Diskontinuitäten vom Gesamt- 
bild berechnet. Beim Mumford-Shah-Ansatz (Mumford & Shah, 1989) 
geht es um die iterative Minimierung einer Energiefunktion. Der Ansatz 
eignet sich für: 


e die Segmentierung von Bildern 


e die Bildverbesserung und 
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e Superresolution. 


Gegeben sei ein initiales Bild uo einer Domäne Q. Wir suchen ein »besse- 
res«, vorliegend also segmentiertes Bild u mit korrespondierender Kan- 
tenmenge I durch Minimierung der folgenden Energiefunktion: 


2 2 
Elu,T|uo] =a] ds +6 | (u—w) ax+y{ |Vul dx (3.12) 
r a A\r 


mit s Kantenlänge und qg, J, yfreie positive Parameter. Dabei gilt: 


e Das Ergebnisbild u stellt eine Approximation des Ausgangsbil- 
des uo dar. In der Literatur wird bezüglich u oft von einem »Car- 
toon«-Bild gesprochen, welches die »wesentlichen« Bildinfor- 
mationen von uo erhalten soll. 


e Jekleiner E wird, desto besser wird uo durch [u, T|u,] segmen- 
tiert. 


e Die drei verwendeten Terme stellen Kostenfunktionen bei der 
Optimierungsaufgabe dar: 


o af r ds berechnet die Kantenlänge und entspricht dem 
eindimensionalen Hausdorff-Maß aH}(s). 


o £ IP (u — u,)?dx vergleicht u mit dem Ausgangsbild uo. 


o y Jarl Vu|?dx berechnet die Weichheit von u ohne die 


Kanten zu berücksichtigen. 


e Die Optimierungsaufgabe kann z.B. mittels Stimulated Annealing 
(Geman & Geman, 1984), Splines (Cremers, Tischhäuser, 
Weickert, & Schnörr, 2002), Graduated Non Convexity (GNC) 
(Grady & Alvino, 2008), Level Set Methoden (Tsai, Yezzi, & 
Willsky, 2001), (Vese & Chan, 2002), Relaxation (Pock, Cremers, 
Chambolle, & Bischof, 2009) und anderen Ansätzen durchge- 
führt werden. Grundsätzlich ist die effiziente Lösung dieser Op- 
timierungsaufgabe nach wie vor Gegenstand der Forschung. 
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3.8.1 Detektion mittels CFAR-Ansätzen 


Das Ziel der Detektion (Entdeckung von ROI (siehe Einführung) bzw. 
»Points of Interest« (POI)) ist die Datenreduktion (Reduktion auf rele- 
vante Bildpunkte). Die meisten Ansätze verwenden die Bildpunktintensi- 
täten bzw. deren Verteilung als primäres Merkmal für den Detektions- 
schritt. Im Wesentlichen werden 3 Methoden unterschieden: 


e histogrammbasiert 
e kantenbasiert und 
e musterbasiert. 


Die musterbasierte Methodik verwendet sehr häufig die Korrelation. Ein 
Vergleichsmuster (Referenz) wird über den Bildbereich verschoben und 
für jeden abgedeckten Musterbereich im Bild die Korrelation berechnet. 
Im Resultat erhält man ein neues Bild (Korrelationswertbild). Auf dieses 
wird dann zwecks Maximasuche ein Schwellwertverfahren angewendet. 


CFAR (engl. Constant False Alarm Rejection) Ansätze konzentrieren sich 
auf Bildbereiche, deren Größe von der erwarteten Zielobjektgröße ab- 
hängen. Bildpunkte, deren Intensitäten herausragen, werden als »Zielob- 
jekt« deklariert. Daher kann ein einzelnes Zielobjekt mehrere CFAR-De- 
tektionen anziehen. Die CFAR-Detektionen werden zusammengefasst 
(engl. Clustering) und ein CFAR-Bild wird generiert. Für jede Testzelle 
werden folgende Berechnungen angestellt: 


I- 
Objekt = — 


> kcFAR (3.13) 


c 


mit / Intensität des betrachteten Bildpunktes, u. geschätzter Mittelwert 
der Clutterintensität, o: geschätzte Standardabweichung der Clutterin- 
tensitäten sowie kcrar konstanter Schwellwert. Bis auf die Intensität wer- 
den alle weiteren Parameter aus Lernstichproben gewonnen. Jeder Bild- 
punkt, welcher überschwellig ist (>kcrar) gilt als zugehörig zu einem 
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Zielobjekt. Alle unterschwelligen Bildpunkte werden dem Hintergrund 
(bzw. Clutter) zugeordnet. 


3.9 Hintergrundcharakterisierung 


Die Detektion von Zielobjektsignaturen in Bilddaten stellt im Wesentli- 
chen eine Zweiklassenklassifikation dar. Unterschieden werden soll zwi- 
schen den Klassen »Zielobjekt« und »Hintergrund« im Bild. Es ist evi- 
dent, dass diese Aufgabe bei kontrastreichen Zielsignaturen vor homo- 
genem Hintergrund trivial ist. In der vorliegenden Anwendungsdomäne 
liegt jedoch alles andere als der triviale Fall vor: die gegebenen Bildfigu- 
ren sind schwer zu deuten und hier befinden sich die Detektionsrate (Pp 
- Probability of Detection) und die Falschalarmrate (FAR - False Alarm 
Rate) in einem kanonisch konjugierten Zusammenhang: je besser der 
eine Wert, desto schlechter der andere. Eine hohe Detektionsrate ist ein- 
fach zu erreichen, allerdings unter Inkaufnahme einer ggf. sehr ungünsti- 
gen Falschalarmrate. Die Ursache für einen generierten Falschalarm liegt 
auf der Hand: eine der Klasse »Hintergrund« zuzuordnende Bildfigur 
wies eine hinreichende Ähnlichkeit zum verwendeten Zielobjektmodell 
des Detektors auf. Demgegenüber resultieren »gutartige« (z.B. homo- 
gene) Hintergrundbereiche nicht in Falschalarmen. Der Bildhintergrund 
beeinflusst jedoch nicht nur die Leistungsparameter des Detektors, son- 
dern auch den Ansatz seiner Implementierung. Es ergeben sich folgende 
Schlussfolgerungen: 


1. Im Gegensatz zur klassischen Vorstellung, sich »nur um die Ziel- 
objektsignaturen« zu kümmern (u.a. nur diese zu trainieren 
etc.), muss sich auch um bestimmte Hintergrundfiguren geküm- 
mert werden. 


2. Inder Klasse »Hintergrund« sollte es eine weitere Klasse von 
solchen Bildfiguren geben, welche als »falschalarmkritisch«, da 
ähnlich zur Zielsignatur, eingestuft wird. Diese Klasse wird im 
Folgenden »Clutter« genannt. 
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3. Die Klasse »Clutter« verdient wie die Klasse »Zielobjekt« eine 
besondere Aufmerksamkeit. Während man durch die Analyse 
der Zielobjektsignaturen die gewünschte Detektionsrate sicher- 
stellen kann, kann die Analyse der Clutterstrukturen die Fal- 
schalarmrate senken. 


Der Hintergrund, insbesondere in Form von Clutter, reduziert die Sys- 
temleistung im Hinblick auf die Detektionsaufgabe. Das Ziel der Detek- 
tion ist die Unterscheidung zwischen Zielobjekt und Hintergrund. Daher 
wird in semantischer Hinsicht die Sensorantwort auf ein Szenenzielob- 
jekt oft als »Signal« und die Sensorantwort auf den Hintergrund (insbe- 
sondere Clutter) als »Rauschen« bezeichnet. Da insbesondere der Clutter 
die größten Probleme im Hinblick auf die Detektion bzw. die Senkung 
der Falschalarmrate darstellt, wird wiederum im semantischen Sinne zu- 
meist von einer »Signal-/Clutter-Ratio« (SCR) gesprochen. Je kleiner die- 
ses Verhältnis ist, desto schwieriger ist es, das gegebene Bild auszuwer- 
ten. Die SCR ist also auch eine Möglichkeit zur Bewertung der Bildquali- 
tat bzw. zur Schätzung von Leistungsparametern eines maschinellen o- 
der menschlichen Auswerters bei einer Detektionsaufgabe. Ein häufig 
benutztes Cluttermodell C nutzt die Varianz der Intensitäten: 


(3.14) 


Dabei wird das Szenenbild in N quadratische, aneinander angrenzende 
Fenster (bzw. Kacheln) aufgeteilt, wobei jedes Fenster die doppelte 
Größe einer Zielsignatur hat. Der Clutter wird somit durch die Quadrat- 
wurzel der normierten Summe der Varianzen aller Fenster i berechnet. 
Zur Berechnung der SCR wird ein Fenster mit enthaltener Zielsignatur 
gewählt, die Varianz berechnet und durch den Wert C dividiert. Die SCR 
kann also bei diesem Ansatz nur über die Kenntnis der Grundwahrheit 
(engl. ground-truth) berechnet werden, wohingegen das Cluttermodell C 
ohne die Grundwahrheit auskommt. 
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Die vorgestellte Methode zur Berechnung einer SCR kann an einigen Stel- 
len verfeinert werden. Zum einen, indem das Bild nicht in aneinander an- 
grenzende Fenster aufgeteilt wird, sondern - ähnlich wie bei Filteraufga- 
ben - eine Berechnung mittels dicht überlappender Fenster erfolgt. 
Ferner ist es zur Berechnung der SCR notwendig, jene Fenster aus der 
Berechnung von C auszuschließen, die die Zielsignatur vollständig oder 
in Teilen enthalten, da ansonsten Teile von Zielsignaturen als Clutter in 
die Berechnung von C bzw. SCR einfließen. Außerdem kann man das 
SCR-Modell leicht auf die Präsenz mehrerer Zielsignaturen erweitern. 


Die getätigten Überlegungen weisen auf die in der Literatur beschriebe- 
nen generellen Ansätze zur Bildbewertung bzw. Schätzung von Leis- 
tungsparametern von Mensch oder Maschine hin. Gesucht wird dabei 
eine Maßzahl C, die möglichst in linearem Zusammenhang mit der ggf. 
vorauszusagenden Detektionswahrscheinlichkeit Pp eines Systems steht: 


Pp =k-C (3.15) 


mit k Konstante. Die vielen unterschiedlichen Ansatze unterscheiden sich 
zum einen darin, dass sie mit oder ohne Grundwahrheit operieren und 
ansonsten im Wesentlichen nur noch durch die Anzahl und den Typ der 
berechneten Merkmale: 


1. Bestimmung eines oder mehrerer als »aussagekräftig« angese- 
henen Merkmale (im obigen Ansatz war es das Merkmal »Vari- 
anz«). 


2. Bildlokale Berechnung der Merkmale und Zusammenfassung via 
Summenbildung zu einer bildglobalen, als »charakteristisch« an- 
gesehenen Maßzahl C, die als »Bildgüte« interpretiert wird. C be- 
rechnet sich nach (3.16), wobei gilt: fNormierungsfunktion, M 
Merkmale, Ci bildglobale Cluttermaßzahl bzgl. Merkmal i (z.B. In- 
tensität) und i (verschiedene) Normierungsfunktionen gi der 
einzelnen Cluttermaßzahl. Im Ansatz steht ffür Quadratwurzel, 
g für Normierung (1/N) und da nur ein Merkmal berechnet wird 
(die Varianz), ist M=1: 
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may (> aca) (3.16) 


3. Falls die Grundwahrheit hinzugezogen wird, werden die obigen 
Berechnungen auf die Bildbereiche angewendet, in denen Ziel- 
signaturen enthalten sind und durch C dividiert. Somit erhalt 
man eine SCR. 


Kritik 


Es liegt auf der Hand, dass bei einer Cluttermaßzahl C (mit oder ohne Zu- 
hilfenahme der Grundwahrheit), die SCR nur dann relevant ist, wenn die 
Merkmale berticksichtigt werden, die auch von einem maschinellen Sys- 
tem bzw. vom Menschen erfasst werden. Beispielsweise wird durch die 
ausschließliche Berechnung der Varianz für C bzw. SCR unterstellt, dass 
die Grauwertvarianz im Bild das entscheidende Unterscheidungsmerk- 
mal von Zielsignatur und Hintergrund (bzw. Clutter) ist. Zum einen ist 
dem keineswegs immer so und zum anderen wäre damit die ATR-Auf- 
gabe gelöst, denn wäre die Varianz hinreichend trennungsrelevant, dann 
würde es reichen den Detektionsalgorithmus lediglich die Grauwertvari- 
anz aller möglichen Bildparzellen ausrechnen zu lassen und entspre- 
chende Parzellen mit überschwelliger Varianz als Detektionshypothesen 
vorzuschlagen. Im Grunde wird also durch diese Ansätze nichts anderes 
gemacht, als in »abgespeckter« Form ein vereinfachtes, stark heuristi- 
sches ATR-Verfahren zu implementieren und zu hoffen, dass die verein- 
fachte ATR-Variante mit seinen Leistungsparametern einem ausgeklü- 
gelten ATR-Verfahren entspricht. 


Dass z.B. die Berechnung der Varianz keineswegs ausreicht, um Zielsig- 
naturen im Bild zu finden, soll Abbildung 3-4 verdeutlichen. Dargestellt 
sind Dreiecke, Kreise und Rechtecke. Die Aufgabe ist es, Rechtecke zu de- 
tektieren. Die Cluttermaßzahl bzgl. Varianz zeigt ein »schwieriges« Bild, 
denn die Varianzen der Parzellen, in denen sich Dreiecke oder Kreise be- 
finden, unterscheiden sich nicht von der Parzellenvarianz mit dem ent- 
haltenen schwarzen Rechteck. Ferner ist die Varianz für die Parzelle, in 
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der das graue Rechteck ist, sehr niedrig. Die Varianz als Merkmal wäre 
nicht charakteristisch und auch nicht trennungsrelevant, um Clutter von 
Zielsignatur zu unterscheiden. Im Ergebnis würden eine zu niedrige De- 
tektionsrate und zu hohe Falschalarmrate prognostiziert. Ein ATR-Ver- 
fahren, das als Merkmal die Form der Zielsignaturen berücksichtigt, 
hätte mit dem gegebenen Bild keine Schwierigkeiten. 


Abbildung 3-4: Beispielbild »Detektion von Rechtecken« 


3.10 Texturbasierte Ansätze 


Texturbasierte Ansätze sind für Bilder günstig, die einen hohen Anteil 
natürlicher und großflächiger Hintergrundstrukturen aufweisen (z.B. 
Waldflächen). Demgegenüber sind direkte texturbasierte Segmentie- 
rungstechniken von Zielobjekten (z.B. Fahrzeugen) meist sehr heuristi- 
scher Natur, da Zielobjekte relativ klein sind und daher keine ausge- 
prägte Textur besitzen. Indirekte Methoden können jedoch durchaus 
erfolgreich sein: Zunächst erfolgt eine großflächige, relativ grobe textur- 
basierte Segmentation des Bildes. In jedem segmentierten Bildbereich 
wird dann nach »Texturfehlern« gesucht. D.h. Stellen, die dem Homoge- 
nitätskriterium des jeweiligen Texturbereichs nicht genügen. Diese Stel- 
len werden dann als Zielobjekt angesehen. Texturcharakteristika werden 
z.B. mittels Grauwertübergangsmatritzen ermittelt. Andere Ansätze er- 
mitteln einen Texturgradienten, der zur Betrachtung menschlicher 
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Tiefen- und Größenwahrnehmung eingeführt wurde (Gibson, 1950). 
Texturgradienten können neben der Bildsegmentierung auch für einfa- 
che Tiefenschätzungen verwendet werden, denn weiter entfernt lie- 
gende Bildfiguren erscheinen dichter gepackt (vgl. Abbildung 3-5). Der 
Eindruck dieser vermeintlich dichteren Packung wird auch bei der 
»Ponzo-Größenillusion« ausgenutzt (Renier, et al., 2005). Ein Texturgra- 
dient lässt sich für jeden Bildbereich (in 3D) z.B. wie folgt ermitteln: 


Gradient = (u; — Urs)? + (Ci — 0545)? für0<is3 (3.17) 


Aus diesen Werten wird ein Texturgradientenbild erzeugt, aus welchem 
ein Texturgradientenhistogramm generiert wird. Das Histogramm wird 
anschließend analysiert, um die Bereiche für die Textursegmentation 
(Hintergründe, Zielobjekt) festzulegen. 


Abbildung 3-5: Demonstration eines visuell wahrnehmbaren Texturgra- 
dienten 


Bei den Relaxationsmethoden (vgl. z.B. (Hansen & Higgins, 1997)) zur 
Segmentierung wird für jeden Bildpunkt die Wahrscheinlichkeit ge- 
schätzt, ob er zum Zielobjekt oder zum Hintergrund gehört. Dieser 
Schätzwert basiert auf den Distanzen vom Ende und dem Mittelwert der 
Grauwertskala. Die Wahrscheinlichkeiten werden iterativ aktualisiert, 
basierend auf den Wahrscheinlichkeiten von benachbarten Bildpunkten. 
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3.11 NAG-Auffälligkeitsdetektion 


Die Lösungsansätze in (Korn A., Toward a Symbolic Representation of 
Intensity Changes in Images, 1988) bzw. (Korn A. , Verarbeitung und 
Auswertung von Signalen bildgebender Sensoren, 1995) wurden in der 
Folge verschiedentlich verwendet (z.B. (Grimm, 2003)) und können als 
artverwandte Vorläufer des heute weit verbreiteten SIFT-Ansatzes 
(Lowe, 2004) angesehen werden. In beiden Fällen werden Merkmale aus 
dem Bildbereich berechnet und insbesondere Gradientenrichtungen in 
Histogrammen zusammengefasst. Während Korn Histogramme für Bild- 
parzellen gemäß der vermuteten Zielobjektgröße erstellt und analysiert, 
erstellt Lowe auf der Basis lokaler Histogramme sog. »Keypoint Vectors«. 
Die Ansätze von KORN stehen im Anwendungskontext der Erkennung von 
Objekten (primär Fahrzeugsignaturen bei Senkrechtsicht) in natürlicher 
Umgebung, wohingegen sich LOWE »nur« auf die Extraktion möglichst in- 
varianter Merkmale bezieht. 


KORN schlug ein Verfahren zur Berechnung und Auswertung von Gradi- 
entenrichtungshistogrammen vor, welches als zusätzliches Entschei- 
dungskriterium eine globale Grauwertschwelle nutzt (Korn A. , 
Verarbeitung und Auswertung von Signalen bildgebender Sensoren, 
1995, S. 109-112). Die Prämissen des Ansatzes, also die Definition der 
Auffälligkeit, stellen sich wie folgt dar: 


e Parallele und/oder orthogonale Linienstrukturen. 


e Senkrechtansicht der Zielsignaturen (ansonsten Verletzung 
des Orthogonalitätskriteriums). 


e Hinreichend kontraststarke Zielsignaturen. 


e Homogene Bereiche innerhalb der Zielsignaturen, um sie 
bei einer Binarisierung als Flecken ballen zu können. 


e Objekte befinden sich in natürlicher Umgebung, d.h. im Ge- 
lände und nicht 
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- in Siedlungsgebieten 

- auf Straßen 

- verursachen keine Spuren, 

da es ansonsten zwangsläufig zu Falschalarmen kommt. 


e Die Objektsignatur ist vollständig sichtbar, sie ist nicht ver- 
deckt oder verläuft an einer Seite kontinuierlich mit dem 
Hintergrund. 


e Die Objektsignatur ist in der relevanten Bildparzelle kon- 
trastreicher, d.h. die Grauwertdifferenz ist größer, als an- 
dere Strukturen im Parzellenbereich. 


Die ideale Fahrzeugsignatur vor idealem Hintergrund gemäß obiger Auf- 
fälligkeitsprämissen sieht wie folgt aus: 


Abbildung 3-6: Ideale Fahrzeugsignatur gemäß Korn‘schem Ansatz links 
und vergrößerte Gradientenrichtungen (grauwertcodiert) 
rechts 


Bei diesem Verfahren wird das Eingabebild fzunächst mit einem Gradi- 
entenoperator (normierte Ableitung einer Gaußfunktion g, NAG ge- 
nannt) gefaltet (wir betrachten aufgrund der Separierbarkeit der Gauß- 
funktionen sowie ihrer Ableitungen nur die eindimensionale Variante); 
eine neue Herleitungsvariante des NAG sowie die Beleuchtung einiger Ei- 
genschaften dieser Faltungsfunktion ist im Kapitel 8 dargestellt. Es 
wurde aus Gründen der Übersichtlichkeit folgende Gaußfunktion 
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zugrunde gelegt, mit gals Standardabweichung (präziser: o/V2, zur bes- 
seren Übersichtlichkeit wird V2 weggelassen): 


1 2 
e 20? (3.18) 


Jo Ira? 


Die Ableitung von g ergibt sich zu: 


2 
, x 2 


gi, = ge te (3.19) 
oder vereinfacht geschrieben: 
; x 
Jo = 296%) (3.20) 


KORN führte hier einen Normierungsfaktor k = ov2rn ein, der eine Skalie- 
rungsinvarianz realisiert und damit den Vergleich von Ergebnisbildern 
für verschiedene Auflösungen ermöglicht (Korn A., Verarbeitung und 
Auswertung von Signalen bildgebender Sensoren, 1995): 


, 


k-x 
Jo = - Gol) (3.21) 


Aus den Faltungsergebnissen lassen sich die Amplituden und Richtungen 
der Gradienten berechnen (Kapitel 8). Anschließend werden nur noch 
die Gradientenrichtungen berücksichtigt, deren Amplitude über einem 
Schwellwert m liegt (meist m=10 (empirisch)), um Rauscheinflüsse zu 
mindern. Nachdem eine Kachelung (Eingangsgröße s gemäß zu erwar- 
tender Zielsignaturgröße) des Grauwertbildes mit 50%-Überlappung 
durchgeführt wurde, splittet sich das Verfahren auf: Für jede Kachel wird 
zum einen das korrespondierende Gradientenrichtungshistogramm er- 
stellt und zum anderen ein Kontrastmaß berechnet. 
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Als Kontrastspannweite K kann in Anlehnung an Kontrastdefinitionen 
der Psychophysik (wie bereits angegeben) nach KORN z.B. verwendet 
werden: 

Lmax T Lmin 


K =x mn (3.22) 
Lmax F Lmin 


wobei Lmax bzw. Lmin die maximale bzw. die minimale Leuchtdichte (Pi- 
xelintensität) in der betrachteten Kachel des Eingangsbildes f bezeich- 
nen. Als Spannweite S einer Kachel bezeichnete Korn die Differenz des 
maximalen und minimalen Intensitätswerts in der betrachteten Kachel: 


S = Lmax — Lmin (3.23) 


Aus den Spannweiten aller Bildkacheln wird aus der mittleren Spann- 
weite ms und deren Standardabweichung os über die Formel 


Gs = Mm, +h-o, (3.24) 


eine adaptive und bildglobale Spannweitenschwelle Gs berechnet. Die 
Konstante h wird empirisch aus einer Lernstichprobe gewonnen (Praxis- 
werte schwanken meist um den Wert 1,5). 


Die Auswertung der Richtungshistogramme in den Kacheln dient der 
Feststellung, ob Vorzugsrichtungen in bestimmten Abständen präsent 
sind. Parallele Kanten resultieren in Maxima des Richtungshistogramms 
im Abstand von 180°; orthogonale Kanten in Maxima im Abstand von 
90°. Ein gut ausgeprägtes Rechteck besitzt also 4 signifikante Maxima im 
Abstand von 90°: 
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Abbildung 3-7: Senkrechtsicht auf ein Fahrzeug und korrespondierendes 
Gradientenrichtungshistogramm (zu beachten: das vierte 
signifikante Maximum liegt auf der rechten Ordinate) 


Zur Detektion möglicher Maxima wendete KORN ein einfaches Verfahren 
an: Das Histogramm wird mit einem Gauß-Tiefpass geglättet und ausge- 
hend vom höchsten Wert im Histogramm (= globales Maximum) wird im 
Abstand von 90° (+ 5°-16°) nach lokalen Maxima gesucht. Ein lokales 
Maximum liegt vor, wenn es in dem entsprechenden Winkelintervall 
mindestens einen Wert gibt, der größer ist als sein linker und sein rech- 
ter Nachbar. 


Als Entscheidungskriterium für das Attribut »auffällig« einer Kachel 
(bzw. Rasterelement) gibt (Korn A., Verarbeitung und Auswertung von 
Signalen bildgebender Sensoren, 1995, S. 112) an: 
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»Ein Rasterelement ist auffällig, wenn seine Spannweite größer als (ms + 
1,5-os) ist und signifikante Maxima des Richtungshistogramms einen Ab- 
stand von (90 + 16) Grad haben.« 


Ein Programmablaufplan ist in folgender Abbildung zu sehen. 
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Programmablaufplan »ROI-Screening« 
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3.11.1 Eigene Bewertung des Korn’schen Verfahrens 


Das vorgestellte Verfahren lässt sich effizient implementieren. Insbeson- 
dere die grobe Kachelung ermöglicht Realisierungen mit geringem Re- 
chenaufwand. Allerdings ist es in vielen Fällen in der vorgeschlagenen 
Form nicht mit hinreichend guten Resultaten einsetzbar und es erfordert 
einen recht hohen empirischen Aufwand für die Parameterfindung, der 
nicht von einem unerfahrenen Anwender vorgenommen werden kann. 


Die Nachteile beginnen mit der Einrichtung des Verfahrens in der Trai- 
ningsphase, denn diese kann nur durch einen kundigen Experten, nicht 
jedoch durch einen Anwender erfolgen und ist ggf. zeit- und arbeitsin- 
tensiv, da das Verfahren über zu viele freie Parameter verfügt. Die Prob- 
leme resultieren u.a. aus diesen freien Parametern bzw. Schwellwerten, 
die durch ein zeitaufwendiges Training ermittelt werden müssen: 


e = Festzulegen ist z.B. der Schwellwert h, der die globale Kontrast- 
schwelle festlegt, ab wann Zielobjekthypothesen zu betrachten 
sind und damit eine Kontrastabhängigkeit impliziert, womit die 
ursprünglich gegebene, weitgehende Kontrastunabhängigkeit in 
Teilen verloren geht. Der Parameter h soll Rausch- bzw. Clutter- 
effekte vermeiden helfen und somit die FAR reduzieren. 


e Zu bestimmen ist auch der Schwellwert m, der die minimale 
Länge der Gradienten definiert, deren Gradientenrichtungen bei 
der Histogrammerstellung berücksichtigt werden sollen. Der Pa- 
rameter m soll Rauscheffekte unterdrücken. Durch die starre 
Schwelle reduziert man zwar Falschalarme, jedoch werden auch 
hier kontrastschwache Objekte (einer der Hauptvorzüge der sta- 
tistischen Auswertung von Gradientenrichtungen) nicht mehr 
entdeckt. Auch dann nicht, wenn sich die kontrastschwachen 
Objekte ansonsten idealtypisch präsentieren. 


e Auch der Skalierungsparameter o für die Implementierung des 
NAG wäre zu bestimmen. 


e Der Faktor 1,5 in der Formel mS + 1,5-oS ist rein empirisch er- 
mittelt. Auch er trägt als zweites zu erfüllendes Kriterium für 
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»Auffälligkeit« zu einer weiteren Verschärfung der Kontrastab- 
hängigkeit bei. 


Die Kachelüberlappung von 50% gewährleistet zwar effiziente 
Realisierungen und eine per se reduzierte Falschalarmrate, je- 
doch bekommt man auf diese Weise keine guten Detektionsre- 
sultate bei Zielobjektsignaturen, die auf den Kanten der Kache- 
lung liegen. Der Überlappungsgrad wäre ein einzustellender 
Parameter, der anhand von Lernstichproben zu bestimmen 
wäre. 


Die Bestimmung der Histogrammmaxima ist in manchen Fällen 
unzuverlässig. Die signifikanten Maxima des Richtungshisto- 
gramms sollen einen Abstand von (90 + 16) Grad haben. Die 
Spannweite +16° ist rein empirisch. Auch die Bestimmung der 
Maxima ist ggf. problematisch: es wird nach Wertdifferenzen in 
der genannten Umgebung geschaut und dann im Abstand von 
90° dieser Vorgang wiederholt. Dabei kann man signifikante 
Zwischenmaxima übersehen oder auch ein kleines lokales Maxi- 
mum als »Auffälligkeitsmaximum« ansehen. Die Glättung des 
Histogramms erleichtert zwar die (problematische) Maximabe- 
stimmung, jedoch verändert sie auch die Statistik der Gradien- 
tenrichtungen und verbessert auch nicht die Qualität der Erken- 
nung. 


Die Auswertung der Richtungshistogramme hat zwei große Vor- 
teile: a) Prinzipielle Kontrastunabhängigkeit sowie b) Rich- 
tungsinvarianz. Abgesehen von der Einschränkung der Kon- 
trastunabhängigkeit durch die limitierenden Parameter h und m 
geht der Ortsbezug verloren, denn das Histogramm speichert 
nicht die Information, wo in der Kachel die entsprechenden Gra- 
dientenrichtungen vorkommen, und somit ist auch unbekannt, 
in welcher strukturellen Anordnung sich die Gradienten zuei- 
nander befinden. 


Die Maximumdetektion im Histogramm der Gradientenrichtun- 
gen ist nicht erläutert. Dabei ist die Maximumdetektion nicht tri- 
vial. Schnell können durch Rauscheffekte und sonstige Einflüsse 
»zufällige« Lokalmaxima das Verfahren in die Irre führen. Neben 
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ad-hoc Implementierungen (Suche nach größten Werten in ge- 
wisser Umgebung) gibt es auch bei herkömmlichen Standard- 
Maximadetektoren (glätten, differenzieren, Nulldurchgangsde- 
tektion) Probleme aufgrund ihrer grundsätzlichen Empfindlich- 
keit (Zufallseffekte). Zur exemplarischen Implementierung 
wurde die Maximumdetektion, die letztlich auf (Heinbach, 1988) 
zurückgeht, gewählt, bei der zunächst lokale Maxima nach her- 
kömmlichem Muster detektiert werden und dann eine Überprü- 
fung durch ein Schwellenkriterium stattfindet. Schließlich wird 
nach globalen Maxima gesucht. Als Schwellwertkriterium wird 
die Ausgeprägtheit eines Maximums herangezogen, welches als 
die kleinere Pegeldifferenz dL zwischen einem lokalen Maxi- 
mum und den unmittelbar angrenzenden lokalen Minima defi- 
niert ist. Wenn die zwei angrenzenden lokalen Minima innerhalb 
des Schwellkriteriumbereichs liegen, dann spricht man von ei- 
nem »globalen Maximum«. 


e Für andere Modelltypen als parallele und orthogonale Struktu- 
ren sind softwaretechnische Änderungen und entsprechende 
Parametrierarbeiten erforderlich. 


Bei der Einrichtung des Verfahrens wird nach der Maxime »wähle gute 
Zielsignaturen« gehandelt, wobei die Eigenschaft »gut« durch den kundi- 
gen Experten festgelegt wird. Dabei werden sogenannte »Chips« (Bild- 
ausschnitte mit Zielsignaturen sowie umgebenden Hintergrund?) aus 
den Trainingsbildern herausgeschnitten und als Trainingsmuster zu- 
grunde gelegt. 


Fehl- und Falschdetektionen für eine größere Menge an Beispielen sind 
in dem skizzierten Ansatz systemimmanent. Abbildung 3-9 zeigt ein sol- 
ches Beispiel für eine »ideale« Falschdetektion (im Bild rechts). Vier 
Kanten mit radial kontinuierlichem Grauwertverlauf auf jeweils einer 
Kantenseite resultieren in nahezu idealen Gradientenrichtungshisto- 
grammen. 


3 Wie viel Hintergrund, ist ebenso empirisch zu testen. 
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Abbildung 3-9: Beispiel für eine »ideale« Falschdetektion (rechts). Zum 
Vergleich: eine ideale Fahrzeugsignatur (links) 


Auch die Annahmen, dass Fahrzeugsignaturen »heller« oder »dunkler« 
als der Hintergrund sein sollen, können zu Fehldetektionen führen (Ab- 
bildung 3-10). 


Abbildung 3-10: Zwei Fahrzeuge (LKW) in einem IR-Bildausschniitt. Das 
eine ist hell das andere dunkel. Bild: IOSB 


Zur Untersuchung der Einflussparameter wie Kontrast, Orientierung und 
Rauschabhängigkeit wurde vom Autor ein Testbild (eine Art »Ground- 
Truth«-Bild) konstruiert (vgl.Abbildung 3-11). Das Testbild zeigt 255 
Rechtecke in den verfügbaren Grauwerten bei einem Grauwertwertebe- 
reich von 8 Bit in zufälligen Orientierungen. Zusätzlich zum Kontrast- 
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verhalten können verschiedenste Rausch-, Schmier- und Überlagerungs- 
effekte simuliert und entsprechende Leistungsparameter von Detekti- 
onsverfahren untersucht werden. Insbesondere wird erkennbar, wie sich 
z.B. Kontrastschwellen und andere, kontrastsensitive Parameter eines 
Verfahrens auf die Detektion kontrastschwacher Objekte auswirken. 


Der Hintergrund des Testbilds hat den Grauwert 128. Deshalb sind nur 
255 und nicht 256 Rechtecke mit 255 unterschiedlichen Grauwerten 
sichtbar. Der Mensch kann auf einem Bildschirm die Rechtecke mit einer 
Grauwertfüllung nahe 128 nicht sehen. Das liegt einerseits am einge- 
schränkten Vermögen des Menschen, verschiedene Grauwerte unter- 
scheiden zu können (je nach Quelle 60-150) und andererseits an den 
Einstellungen (insbes. dem Gammawert, bei Arbeitsplatzrechnern meist 
bei 2,2 eingestellt) bzw. Einschränkungen des Bildschirms. 


Die Verarbeitung des Testbilds gibt unmittelbar Antworten auf folgende 
Fragen: 


e Wie geht das Verfahren mit Objektsignaturen um, die nahe am 
Bildrand liegen (in den meisten Fällen werden dort keine Detek- 
tionshypothesen generiert)? 


e Wie kontrastsensitiv ist ein eingesetztes Detektionsverfahren? 
Werden alle Rechtecke detektiert, die weit genug vom Rand ent- 
fernt liegen, liegt eine (maximale) »Kontrastunabhängigkeit« 
vor. Beispielhaft wurde auf das Testbild der diskutierte Korn- 
Ansatz sowie der im Zuge dieser Arbeit entwickelte Operator 
angewendet (Abbildung 3-12). Bei dem Korn-Ergebnis ist zu se- 
hen, dass sich im Ergebnisbild in der Mitte horizontal ein leerer 
»Schlauch« an nicht detektierten Rechtecken bildet. Diese Fehl- 
detektionen resultieren im Wesentlichen aus den besprochenen 
Kontrastschwellen. Der alternative Operator erfasst hingegen 
alle Rechtecke, bis auf die, die direkt an den Bildrand angrenzen. 


e Mit der gewählten Ergebnisvisualisierung wird auch deutlich, 


dass Objekte wie in Abbildung 3-10 (helles Fahrzeug auf dunk- 
lem Grund, dunkles Fahrzeug auf hellem Grund) erfasst werden. 
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e Wie erwähnt, können beliebige Rauscheinflüsse auf die Leis- 
tungsparameter eines Detektionsverfahrens untersucht werden. 


Abbildung 3-11: Testbild zur Überprüfung der Kontrasteinflüsse, Orientie- 
rungen und Rauscheinflüsse 
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Abbildung 3-12: Beispielhafte Anwendung des Korn-Operators (oben) und 


des selbst entwickelten Operators (unten) auf das Test- 


bild 
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Einordnung und signalnaher 
Ansatz 


Der signalnahe Ansatz bezieht sich auf folgende Aspekte: 


1. 


4.1 


Finden global auffälliger Strukturen: Dazu sind entsprechende 
Auffälligkeitsmaße für Einzelbilder zu definieren. Es soll zwi- 
schen drei Phänomenen unterschieden werden: 


a. Primärartefakt/Auffälligkeit 
b. Sekundärartefakt/Auffälligkeit 
c. Hintergrundcharakterisierung 


In Ansätzen: Propagation gefundener Auffälligkeiten (Sekundär- 
artefakte), um nach Primärartefakten zu suchen. 


Prozedur 


Die in Abschnitt 3.11.1 diskutierten Nachteile, insbesondere, was die 
Starrheit der Modelle, diverse empirisch zu ermittelnde Parameter, Ab- 
kehr von der umfassenden Kontrastunabhängigkeit und der Maximasu- 
che anbelangt, ist hier das Ziel, ein Verfahren vorzustellen, welches über 
die folgenden Eigenschaften verfügt. Basierend auf frühen Arbeiten 
(Müller & Korn, Automatic Target Detection in Cluttered IR Images, 
1999) werden diverse Erweiterungen vorgenommen: 


Detektion von Auffälligkeiten in einem Bild gemäß definierbarer 
Auffälligkeitsmodelle. 


Ein vom Ansatz her schnelles Verfahren. 


Möglichst einfache, dennoch flexible Modellannahmen. 
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Wenn man z.B. die Modellvorstellung für ein Auffälligkeits- bzw. Salienz- 
maß hat, dass sich die gesuchten MMO durch Parallelität und Orthogona- 
lität auszeichnen, so kann man mit dem hier beschriebenen Ansatz ent- 
sprechende Salienzmodelle a priori vorgeben und benötigt keine um- 
fangreiche Trainings- bzw. Einrichtphase. Dabei ist der gewählte Ansatz 
obendrein unabhängig von der Entscheidung, welche Trainingssignatu- 
ren (»gute« oder »alle«) man aus dem Trainingsdatensatz auswählen 
sollte, denn vorgegeben werden »optimale« Modelle, die durch Binär- 
bildvorgabe bzw. der daraus berechneten Gradientenrichtungshisto- 
gramme erzeugten Daten definiert sind. Obendrein erspart man sich die 
fehleranfällige Maximasuche und bewahrt die weitgehende Kontrastun- 
abhängigkeit. 


Will man also z.B. solche Strukturen im Bild entdecken, die sich durch 
Parallelität und Orthogonalität (also Rechtecke) auszeichnen, so ist ein 
Modell wie in Abbildung 4-1 optimal. 
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Abbildung 4-1: Optimales Rechteckmodell: weiß auf schwarzem, homoge- 
nem Grund (oben), zugehöriges Gradientenrichtungshis- 
togramm (unten). Das vierte Maximum liegt auf der rech- 
ten Ordinate 


Hat man das gewünschte Modell zugrunde gelegt, korreliert man zuvor 
berechnete Gradientenrichtungshistogramme in verschiedenen Rotati- 
onsstufen (d.h. zyklischen Verschiebungen des Histogramms auf der 
Abszisse). Die Auflösung in Grad der Rotationsstufen ist anwendungsab- 
hängig. Eine zwar gründliche, aber rechenintensive Analyse vergleicht in 
1°-Schritten (d.h. 180 Histogramme) die Rechtecke des Modells mit den 
Gradientenrichtungshistogrammen lokaler Umgebungen bzw. Kacheln 
im Bild, die der Größe des gesuchten Zielobjekts entsprechen. Zur Be- 
schleunigung der Vergleichsrechnung kann auf die FFT bzw. einen 
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Korrelationskoeffizienten (vgl. (4.1)) zurückgegriffen werden, wobei auf 
die Normierung durch die Varianzen verzichtet werden kann. 


c = cov(r,,S) (4.1) 


mit c Vergleichsergebnis, ri Gradientenrichtungshistogramm der jeweili- 
gen lokalen Bildumgebung und S die Gradientenrichtungshistogramme 
(in verschiedenen Rotationen) des vorgegebenen Salienzmusters. Die 
Möglichkeit, mit Hilfe der Vergleichswerte (Korrelation/Kovarianzen) 
ein Maß für die Ähnlichkeit bzw. Auffälligkeit angeben zu können, ist 
auch für eine flexible Schwellwertfestlegung vorteilhaft. Die Prozedur 
zeigt sich im Überblick in Abbildung 4-2, wobei rote Pfeile/Kästchen 
»online«-Berechnungen und grüne Pfeile/Kästchen »offline«-Berechnun- 
gen markieren. 
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Abbildung 4-2: 
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Vergleich der Gradientenrichtungshistogramme von loka- 
len Bildumgebungen und den Musterhistogrammen 
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Die folgende Abbildung 4-3 zeigt ein Beispiel des Vergleichs eines Mus- 
terhistogramms mit einer Zielsignatur aus einer lokalen Bildumgebung. 


Abbildung 4-3: Vergleich - Muster und sein Histogramm (oben) sowie 
Zielsignatur in einem Bildbereich mit seinem Histogramm 
(unten) 


Auch wenn das Histogramm des Bildbereichs verrauschter ist, so sind 
die Ähnlichkeiten auch visuell unmittelbar erkennbar. 


Mit der Binärbildvorgabe und der entsprechenden Generierung der Gra- 
dientenrichtungshistogramme können Auffälligkeitsmaße, in Abhängig- 
keit der jeweiligen Aufgabenstellung bzw. Anwendung, nahezu beliebig 
definiert werden (vgl. Abbildung 4-4). Allein durch die Vorgabe 
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entsprechender Binärmuster können auf einfache Art Salienzen definiert 
werden. Ferner können Binärmuster sogar zur Laufzeit eingespeist wer- 
den. 


Der Ansatz über die Nutzung von Gradientenrichtungen von Binärmus- 
tern unterliegt jedoch auch Einschränkungen. Beispielsweise sind runde 
Strukturen oder Kreise mit ihren gleichverteilten Gradientenrichtungs- 
histogrammen nur bedingt als zu detektierende Zielstruktur geeignet. 


Dieser Ansatz ist sehr flexibel und mächtig, denn es müssen nur die 
grundlegenden Eigenschaften der gesuchten Primär- bzw. Sekundärarte- 
fakte (Salienzen) vorgegeben werden. Zeichnet sich die Salienz z.B. nur 
durch strukturelle Parallelität von Kanten aus, wie z.B. bei Straßen, We- 
gen und Spuren im Gelände oder Flußverläufen, so kann ein binäres 
Muster vorgegeben werden, welches im Gradientenrichtungshisto- 
gramm genau zwei Maxima im Abstand von 180° aufweist (Abbildung 
4-5). 
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Abbildung 4-4: Beispiele mit Gradientenrichtungshistogrammen 
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Abbildung 4-5: Muster zur Suche nach parallelen Strukturen (Straßen, 
Flüsse, etc.) Das Histogramm weist genau zwei Maxima im 
Abstand von 180° auf 


Die Suche nach parallelen Strukturen im Bild hat im Hinblick auf die 
Leistungsparameter der eigentlichen Detektionsaufgabe Vorteile. Bei- 
spielsweise befinden sich Fahrzeuge üblicherweise auf Straßen und We- 
gen oder hinterlassen im Gelände Spuren. Es bietet sich also an, in einer 
ersten Auswertestufe nach diesen Strukturen im Bild zu suchen und sie 
als »Erwartungsbereiche« (ROE - Region of Expectation) bzw. potenti- 
elle »Aufenthaltsbereiche« zu definieren. Eine ROE zeichnet sich also 
durch eine hohe Aufenthaltswahrscheinlichkeit von gesuchten Zielobjek- 
ten aus. Durch die Definition von ROEs liegen auch automatisch Aus- 
schlussbereiche fest, die über eine geringe Aufenthaltswahrscheinlich- 
keit entsprechender Zielobjekte verfügen (Abbildung 4-6). 


Detektiert man auf diese Weise z.B. Straßen wird Kontextwissen gene- 
riert. Alternativ (oder ergänzend) können entsprechende Informationen 
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a priori auch aus einem GIS abgerufen werden. Im Allgemeinen sind in 
einem GIS sogenannte »Straten«, also geographische Gebiete, die einem 
Homogenitätskriterium genügen, gespeichert. Je nach Anwendungsfall, 
können diese Straten zur Definition von ROEs herangezogen werden. 
Nachdem die ROESs festgelegt wurden, erfolgt im zweiten Schritt der ei- 
gentliche Detektionsvorgang. 


4 ae | 


Abbildung 4-6: Bild mit (aufgehellten) Erwartungsbereichen gemäß der 
Information »Straße« 


Die Suche nach Ecken bzw. eckförmigen Strukturen im Bild wird durch 
ein Richtungshistogramm ermöglicht, welches zwei Maxima im Abstand 
von 90° aufweist (Abbildung 4-7). 


Bei der Verwendung der Histogramme wird nur auf die Ausprägung pro- 
minenter Maxima geachtet. Die absolute Höhe der Spikes ist 
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nebensächlich. Solange sich die Maxima prominent ausprägen, spielen 
Rauscheffekte auch keine Rolle. 
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Abbildung 4-7: Beispielmustervorgabe zur Suche nach Ecken im Bildbe- 
reich 


Analog können auch komplexere Muster gesucht bzw. vorgegeben wer- 
den. Abbildung 4-8 zeigt die binarisierte Draufsicht eines Flugzeuges. Bei 
dem Richtungshistogramm bilden sich rauschartige »Huckel« aus. Diese 
entstehen an abgerundeten Ecken. 
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Abbildung 4-8: Vorgabemuster für ein Flugzeug 


Sei ein Bild gegeben und die Gradientenrichtungen berechnet. Die Aufga- 
benstellung erfordert die Suche nach Fahrzeugsignaturen in Senkrecht- 
sicht. Gesucht wird in dem Fall also nach rechteckförmigen Zielsignatu- 
ren, womit das Rechteckmodell mit seinen 4 Maxima (2 lokale, 2 globale, 
im Abstand von 90°) zugrunde gelegt werden kann (vgl. Abbildung 4-3). 
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Abbildung 4-9: Beispielbild (oben) nach Faltung und das grauwertco- 
dierte Gradientenrichtungsbild, unten 


Mit grafisch gezeichneten Vektoren kann man Gradientenrichtungen und 
-beträge gleichzeitig visualisieren. Beispielsweise, indem schachbrett- 
musterartig Punkte im Bild gewählt werden und die grafischen Vektoren 
eingezeichnet werden (Abbildung 4-10). Die eingezeichnete Stärke des 
Vektors korrespondiert dabei mit der Größe des Gratientenbetrags. Mit 
dieser Visualisierung wird leicht erkannt, dass eher homogene Bildberei- 
che kleine grafische Vektoren aufweisen und Stellen mit hohem Kon- 
trastunterschied große Vektoren. 
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Abbildung 4-10: Gradientenrichtungen und -beträge gleichzeitig mittels 
grafischer Vektoren visualisiert 


Das Gradientenrichtungsbild kann - je nach zur Verfügung stehender Re- 
chenleistung - dicht (im Rahmen dieser Arbeit der bevorzugte Ansatz) 
oder überlappend (gemäß ursprünglichem Korn’schen Ansatz) gekachelt 
bzw. parzelliert werden, wobei die Parzellen die Größe der gesuchten 
Zielsignatur haben. Für entsprechende Experimente ist im IOSB eine An- 
wendung (»Kacheln«) entwickelt worden, welche im Wesentlichen fol- 
gende Möglichkeiten bietet (vgl. Abbildung 4-11): 


e Visualisierung des zugrunde gelegten Bildes oder des Gradienten- 
richtungsbildes. 


e Interaktive Einstellung der Kachelgröße. 


e Visualisierung der wählbaren Kachelung. 
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e Auflistung der Gütewerte (z.B. Korrellations-/Kovarianzwerte) für 
jede Kachel. 


e Interaktive Einstellung eines Schwellwertes für die Gütewerte mit 
farblicher Visualisierung der Kacheln mit überschwelligem Güte- 
wert. 


Als Ergebnisbeispiel legen wir Abbildung 4-12 inkl. Ground-Truth zu- 
grunde. Der Korn’sche Ansatz operiert auf Bildern mit ausreichend aus- 
geprägtem Zielobjektkontrast gut, hat allerdings im Gegensatz zum hier 
vorgestellten Ansatz Probleme bei kontrastschwachen Objekten (Abbil- 
dung 4-14). Das trifft auch auf modernere Ansätze zu (z.B. SIFT), die im 
Falle kontrastschwacher Objekte versagen und daher keine Merkmale an 
der Zielsignatur im Bild identifizieren können (Abbildung 4-13). Weder 
beim SIFT, noch beim Korn-Ansatz wird das obere Fahrzeug detektiert. 
Allerdings detektiert der vorliegende Ansatz auch Sekundärartefakte 
(Abbildung 4-15). 
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Kacheln L-O 
Datei Optionen Hilfe 
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Abbildung 4-11: Anwendung »Kacheln« für Experimente bzgl. Schwellwer- 
ten von Gütemaßen, Kachelüberlappungen, etc. Kacheln 
mit einem überschwelligen Gütewert sind gelb gekenn- 
zeichnet, Bild: IOSB 
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Abbildung 4-12: Grundwahrheit 


Abbildung 4-13: SIFT-Ansatz: Sichtbar ist, dass kein SIFT-Merkmal beim 
oberen Zielobjekt erfasst wird 
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Abbildung 4-15: Ergebnisse mit eigenem Verfahren 
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Die Eigenschaften des eigenen Ansatzes: 


e Salienzen können durch einfache (Binär-) Modelle definiert werden. 
e Sehr geringe Kontrastabhängigkeit. 


e Durch die Vorausberechnung entsprechender Rotationen im 1D-His- 
togrammmodell wird eine Rotationsunabhängigkeit erreicht. 


e Für jede Detektionshypothese wird ein Gütemaß generiert, was fle- 
xible Schwellwertanpassungen ermöglicht. 


e Der Vergleich von Modell(histogrammen) und Bildbereich(histo- 
grammen) erfolgt in 1D, was schneller ist als in 2D zu operieren. 


e Eine fehleranfallige und aufwändige Maximasuche in Histogrammen 
entfallt. 


e Der Prozess der Verfahrensoptimierung bzw. Parameteranpassun- 
gen wird durch die Nutzung der (Binär-) Modelle vereinfacht. 
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beitung 


1965 formulierte GORDON E. MOORE das nach ihm benannte Moore’sche 
Gesetz (Moore, 1965), welches besagt, dass sich die Dichte Integrierter 
Schaltkreise (IC) alle 12 Monate verdoppelt. Abbildung 5-1 berücksich- 
tigt eine Auswahl an CPUs der Firmen AMD, Intel, Motorola, MOS und Zi- 
log zur Veranschaulichung dieser Entwicklung. 
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Abbildung 5-1: Anzahl an Transistoren in CPUs (logarithmische Skala) 


Mit der Erhöhung der Integrationsdichte war gleichzeitig auch eine Stei- 
gerung der Taktfrequenz möglich. Dieses führte bis vor rund 10 Jahren 
dazu, dass insbesondere aufgrund höherer Taktraten leistungsgestei- 
gerte Einzelprozessorsysteme gefertigt wurden. Viele Softwareentwick- 
ler überließen die Steigerung der Ausführungsgeschwindigkeit im We- 
sentlichen den hardwaretechnischen Fortschritten. Dieses Vorgehen 
konnte aus verschiedenen Gründen nicht funktionieren. So wies NIKLAUS 
WIRTH 1995 auf das nach ihm benannte Gesetz hin, dass »die Software 


79 


Beschleunigung der Verarbeitung 


schneller langsamer, als die Hardware schneller wird« (Wirth, 1995). 
Dieses Wirth’sche Gesetz warnt vor dem überproportionalen Anstieg der 
Komplexität von Programmen. Erschwerend kommt die exponentiell 
steigende Menge an zu verarbeitenden Daten hinzu. Es wird in diesem 
Zusammenhang von einem »Data Warehouse« (DWH) bzw. »Big Data« 
gesprochen (Oueslati & Akaichi, 2010). 


5.1 Verarbeitungstrends 


Im Video-/Multimedia-Bereich ist ein anhaltender Trend zu immer höhe- 
ren Auflösungen zu verzeichnen. Operierte das Videocassettenformat 
VHS noch mit rund 0,08 MPixel Auflösung (pro Frame), sind in vielen Be- 
reichen »Full HD«-Lösungen (ca. 2 MPixel/Frame) Standard. Erste Ge- 
rate mit »Quad Full HD« (auch 4K genannt) mit ca. 12,5 MPixel/Frame 
wurden bereits vorgestellt und Ankündigungen ranken sich um Systeme 
mit über 36 MPixel/Frame. Mit Blick auf die stark steigenden Datenmen- 
gen bzw. »Big Data« stellen wir in dieser Arbeit fest: 


»Die zu verarbeitende Datenmenge wächst schneller, 
als Rechner schneller werden.« 


Der wesentliche Grund, warum die Leistungssteigerung der CPUs primär 
aufgrund der Erhöhung der Taktrate von den Herstellern nicht in der bis 
vor rund 10 Jahren gewohnten Weise weiterverfolgt wurde, liegt am ein- 
hergehenden, steigenden Energieverbrauch der CPUs mit höherem Takt. 
Der Energieverbrauch in Abhängigkeit von der Taktfrequenz für eine 
Ein-Kern-CPU lässt sich wie folgt berechnen (Chandrakasan, Potkonjak, 
Mehra, Rabaey, & Rodersen, 1995): Sei C die Kapazität eines Schaltkrei- 
ses, um Energie zu speichern, dann gilt C = q/V, mit q Ladung und V 
Spannung. Also gilt q = CV. Um eine Ladung q von 0 auf V zu bringen, 
wird die Arbeit W=q-V verrichtet. Es gilt also W=CV?. Bei der Leistung 
wird vorliegend danach gefragt, wie oft man einen Schaltkreis pro 
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Sekunde schalten lässt (Taktfrequenz), es gilt P=f-W, mit f Taktfrequenz. 
Zusammengefasst ergibt sich also: 


P=CV2f (5.1) 


Wir nehmen fiir eine Ein-Kern-CPU die Werte als gegeben an und be- 
trachten die Situation fiir eine Zwei-Kern-CPU mit einer nominell glei- 
chen Rechenleistung fiir parallelisierbare Anwendungen. Die Gesamtka- 
pazitat der Zwei-Kern-CPU wird aufgrund des héheren 
Leitungsaufwandes etwas hoher sein als 2, also z.B. 2,1. Die Taktfrequenz 
jedes Kerns kann halbiert werden, woraufhin auch die Spannung redu- 
ziert werden kann. Allerdings aufgrund von Leckströmen u.a. nicht ganz 
auf die Hälfte, sondern z.B. auf 0,6. Werden diese relativen Werte für For- 
mel (5.1) zugrunde gelegt, errechnet sich ein Wert für P von ca. 0,38. Das 
bedeutet, dass das Zwei-Kern-Ensemble bei gleichem Durchsatz fast 40 
Prozent weniger Stromverbrauch aufweist. Entsprechend sind die Werte 
bei CPUs mit bedeutend mehr Kernen (die »Xeon 5« CPU von INTEL ver- 
fügt bereits über 60 Kerne). 


(Sutter, 2005) führte in seinem unter Softwareentwicklern viel beachte- 
ten Artikel »The Free Lunch Is Over« aus, dass seriell ausgelegte Hard- 
ware an ihre physikalischen Grenzen stößt und daher zwei wesentliche 
Konsequenzen zu ziehen seien: 


1. Die CPU-Hersteller werden sich auf die Entwicklung von Multi- 
Kern-Prozessoren konzentrieren. 


2. Software-Hersteller sind gezwungen, massiv parallele Pro- 
gramme zu entwickeln, um die Leistung von Multi-Kern-CPUs 
besser ausnutzen zu können. 


Andererseits muss festgestellt werden, dass eine automatische Paralleli- 
sierung von Programmen bzw. Programmteilen trotz intensiver For- 
schungsbemühungen nach wie vor nicht funktioniert und möglicher- 
weise auch nie funktionieren wird. Es liegt also am Programmentwickler, 
die Teile eines Programms zu identifizieren, die sich parallelisieren 
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lassen. Dabei kann man im Wesentlichen auf eine Parallelisierung auf 
Prozessebene oder auf eine Vektorisierung setzen. Folgende Ansätze bie- 
ten sich an: 


1. 


Spezielle Hardware, wie z.B. ASICs (Application-Specific In- 
tegrated Circuits), die sich jedoch erst ab höheren Stückzahlen 
(~ 20.000) rechnen oder FPGAs (Field Programmable Gate Ar- 
rays). Beide Lösungen bieten eine sehr hohe Rechenleistung, die 
insbesondere bei vektorisierbaren Berechnungen die anderen 
Ansätze übertrifft. In beiden Fällen verlässt man jedoch den Be- 
reich von Standard-PC-Hardware, was in vielen Anwendungsfäl- 
len nicht erwünscht ist. 


Verarbeitung mittels GPU (Graphics Processing Unit), was je- 
doch entsprechende Grafikkarten benötigt sowie nur bedingt 
portable Software (z.B. mittels OpenCL - Open Computing Lan- 
guage) ermöglicht oder gar proprietäre Software (z.B. mittels 
CUDA - Compute Unified Device Architecture von NVIDIA) erfor- 
dert. 


Parallelisierung auf Prozessebene, z.B. unter Nutzung von 
OpenMP (Open Multi-Processing), was in der vorliegenden Ar- 
beit jedoch nur angedeutet wird (Abschnitt Fehler! Verweis- 
quelle konnte nicht gefunden werden.). 


Nutzung spezieller Möglichkeiten heutiger Standard-CPUs, was 
im Rahmen dieser Arbeit ausgewählt wurde und im Abschnitt 
5.2 besprochen wird. 


Die hier gewählte Klassifizierung von Rechnerarchitekturen wurde erst- 
mals von FLYNN vorgeschlagen (Flynn, 1972) und unterlag in der Folge 
diversen Verfeinerungen (Hellmann, 2013): 


82 


SISD-Architektur (Single Instruction, Single Data): Diese Klasse 
von Rechnern realisiert das klassische sequentielle »John von 
Neumann«-Prinzip. Die auszuführenden Befehle (Befehlsstrom) 
werden einzeln nacheinander auf nacheinander zu beziehende 
Daten angewendet. 


Beschleunigung der Verarbeitung 


MISD-Architektur (Multiple Instruction, Single Data): Rechner 
dieser Klasse bestehen aus einer Vielzahl von Prozessoren. Alle 
Prozessoren führen gleichzeitig verschiedene Befehle auf den 
Daten eines einzelnen Eingabestroms aus. Die Organisations- 
komplexität ist hoch und gleichzeitig besitzt diese Architektur 
durch die SD (Single Data)-Einschränkung nur eine geringe Fle- 
xibilität. Daher findet sich in der Praxis kein entsprechend orga- 
nisiertes Rechnersystem. 


SIMD-Architektur (Single Instruction, Multiple Data): Bei reinen 
Rechnersystemen dieser Klasse findet man mehrere Prozesso- 
ren mit eigenem Speicher im System, die jeweils denselben Be- 
fehl auf unterschiedlichen Datenströmen ausführen. Diese Ar- 
chitektur ist für DSPs (Digital Signal Processor), systolische 
Arrays, Pipeline-Rechner und im übertragenen Sinne auch für 
SSE grundlegend. Für die Bild- und Signalverarbeitung besitzt 
sie eine besondere Bedeutung. 


MIMD-Architektur (Multiple Instruction, Multiple Data): Dieses 
ist das allgemeinste Architekturmodell. Das Rechnersystem be- 
sitzt mehrere Prozessoren, die unabhängig voneinander unter- 
schiedliche (oder die gleichen) Daten verarbeiten können. Im 
Prinzip handelt es sich um eine Verschaltung von SISD-Rech- 
nereinheiten. Bei geeigneter Konfiguration kann man mittels 
MIMD jede der genannten sonstigen Architekturen realisieren. 
In der Praxis findet man diese MIMD-Architektur mit gewisser 
Einschränkung sehr häufig schon bei Standardrechnern. Heutige 
Betriebssysteme unterstützen diese Architektur üblicherweise 
durch präemptives Multitasking. 


Ein grundlegendes Problem bei allen Architekturen, in denen Parallelität 
eine Bedeutung spielt, liegt in der Frage nach der Parallelisierbarkeit von 
Berechnungen und insbesondere bei MIMD-Architekturen die Frage 
nach der Synchronisation von Vorgängen. 


Die heute verfügbaren Mikroprozessoren realisieren zumeist mehrere 
Architekturen gleichzeitig. Grundsätzlich sind sie auch SISD-konform, 
verfügen jedoch über mehrere autarke »Kerne«, also separate CPUs auf 
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einem Chip (MIMD-Prinzip) sowie eine SIMD-Erweiterung pro Kern 
(meist SSE). 


5.2 SIMD-Realisierung der NAG 


Aus dem weiten Feld der Forschung rund um die Parallelisierung von Al- 
gorithmen empfehlen sich bei vektorisierbaren Anwendungen insbeson- 
dere SIMD-Techniken. Unter SIMD versteht man im Allgemeinen eine be- 
stimmte Klasse möglicher Rechnerarchitekturen. Die Firma INTEL hat ab 
1997 mit MMX (Multi Media Extension) und ab 1999 SSE (Streaming 
SIMD Extensions) eingeführt und seitdem bis heute weiterentwickelt. 
Diese Verfiigbarkeit in allen heutigen Standard-CPUs ist der Grund, wa- 
rum die vorliegende Arbeit die Nutzung der SIMD-Erweiterungen der 
CPUs favorisiert. 


Grob gesprochen kann bei einer SIMD-Architektur ein Befehl gleichzeitig 
auf n Daten angewendet werden. In der SSE-Realisierung können bei- 
spielsweise die Grundrechenarten oder auch das Skalarprodukt aus zwei 
-je nach Datentyp - aufgeteilten 256-bit Registern parallel berechnet 
werden. Der Vorteil für die Bildverarbeitung bei dieser Parallelisierung 
liegt auf der Hand: im Extremfall beherbergt ein 256-bit-Register die 
Werte von 256 Pixeln eines Binärbildes, die dann mit einer logischen 
Operation parallel mit anderen 256 Pixeln verrechnet werden können. In 
diesem speziellen Fall sind Berechnungsgeschwindigkeiten erreichbar, 
die bei gleichem CPU-Takt um 1-2 Größenordnungen höher liegen als bei 
der sequentiellen Abarbeitung. SIMD-Architekturen sind für die Bild- 
und Signalverarbeitung von besonderer Bedeutung, da bei sehr vielen 
Operationen die Werte der Bildmatrix parallel verarbeitet werden kön- 
nen (z.B. bei einer Faltung oder generell bei lokalen Bildoperatoren). 
Diese inhärente Parallelität kann jedoch, trotz intensiver Forschung auf 
diesem Gebiet, nicht von gängigen Compiler-Systemen automatisch er- 
kannt und umgesetzt werden. Daher muss die Spezifikation und 
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Implementierung dediziert bzw. unter Nutzung entsprechender Ent- 
wicklungsumgebungen erfolgen. 


Der NAG-Operator basiert im Wesentlichen auf zwei Faltungen und den 
Berechnungen der Gradientenwinkel sowie Gradientenbeträge aus den 
Faltungsergebnissen. Aus Effizienzgründen werden die Winkel in 2- 
Grad-Schritten codiert (um in einem Byte erfassbar zu sein). Ferner wird 
aus Effizienzgründen bei der Berechnung der Winkel und Beträge auf 
eine Look-up-Tabelle mit entsprechend vorausberechneten Werten zu- 
rückgegriffen. Ebenso wurde auf ganzzahlige Faltungsmasken mit opti- 
mierten Werten zurückgegriffen. Diese Faltungsmasken sind 5x5 groß 
und lehnen sich daher an o 0,9 an, vgl. (5.2). Dieser Wert von o wurde 
gewählt, weil damit eine effiziente (separable), ganzzahlige Implemen- 
tierung ermöglicht wird und sich eine solche Maskengröße für viele 
praktische Anwendungen KT als geeignet erwies. Andere Werte für o las- 
sen sich über entsprechende Skalierungen des Eingangsbildes realisie- 
ren. Die Werte der Faltungskerne K bzw. KT lauten wie folgt: 


-1 -3 0 3 1 
-8 -24 0 24 8 
K=|-14 -42 0 42 14 
-8 -24 0 24 8 
-1 -3 0 3 1 
-1 -8 -14 -8 -1 Oe) 
-3 -24 -42 -24 -3 


Nach den zwei Faltungen müssen noch die Gradientenbeträge, deren Ma- 
xima und die Gradientenrichtungen berechnet werden. Außerdem sind 
Koordinatentransformationen (kartesisch>polar) vorzunehmen. Zur 
Vermeidung der Berechnung von transzendenten Funktionen wurden 
umfangreiche Funktionswerttabellen verwendet, die durch ein eigenes 
Programm generiert und fest codiert wurden. Aufgrund der Separierbar- 
keit und mehrfach vorkommender Koeffizienten konnten diverse 
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Vereinfachungen vorgenommen werden. Zusammen mit Nebenrechnun- 
gen (Umwandlungsroutinen usw.) werden ca. 100 Grundoperationen pro 
Bildpunkt ausgeführt. 


Aus Kompatibilitätsgründen wurde nur auf den MMX-Standard zurück- 
gegriffen. Die Nutzung von SSE-Instruktionen und -Möglichkeiten er- 
brachte keine signifikante Geschwindigkeitssteigerung (Ausnahme: Ma- 
xima-Filterung, siehe unten). Die Kompatibilität mit dem MMX-Standard 
ermöglicht grundsätzlich eine Nutzung der SIMD-NAG-Realisierung im 
Embedded-Bereich. 


Der Geschwindigkeitsgewinn durch die SIMD-Implementierung im Ver- 
gleich zur SISD-Implementierung liegt bei rund 300% (Abbildung 5-2). 
Allerdings verbraucht die vorliegende Implementierung noch gut 50% 
der Rechenzeit für die Herausfilterung der Maxima aus den Faltungser- 
gebnissen. Die Filterung der Maxima könnte mit entsprechenden In- 
struktionen ab der Version 4.1 von SSE (INTEL, 2007) weiter beschleu- 
nigt werden, so dass ein Geschwindigkeitsgewinn von geschätzten 400- 
500% realisierbar wäre. 


Pentium I MMX INTEL i7 


200 MHz 3,45 GHz 


EEJ 0,5 Mio. Pix/s 35 Mio. Pix/s 


EMI 16 Mio. Pixs 100 Mio. Pix/s 


Abbildung 5-2: Leistungsvergleich SISD und SIMD 
Bemerkungen: 
e Im Vergleich zu ersten MMX-CPUs von 1997 erzielen heutige 
CPUs eine um etwa den Faktor 60 höhere Durchsatzsteigerung. 


Demgegenüber hat sich der CPU-Takt nur um etwa den Faktor 
17 gesteigert. Der im Vergleich zur Taktsteigerung 
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überproportionale Gewinn resultiert im Wesentlichen aus ver- 
größerten Registern und optimierten Schaltungslayouts. 


Die SIMD-NAG rechnet auf einem Kern. Auch der Leistungsver- 
gleich wurde nur auf einem Kern durchgeführt. Daher ist die 
NAG-Anwendung nahezu linear skalierbar, eine Zwei-Kern-CPU 
liefert nahezu die doppelte Leistung. 


Mit der SIMD-NAG ist es heute möglich, Leistungswerte zu erzie- 
len, die erst CPUs der nächsten oder übernächsten Generation 
ohne die SIMD-Implementierung erreichen. 
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6 Videogestutzte 
Sicherheitstechnik 


Die umfassende Thematik »Sicherheit« gehört zu den zentralen gesell- 
schaftlichen Themen, mit denen sich politische bzw. behördliche Ent- 
scheidungsträger ebenso befassen, wie Vertreter aus der Wirtschaft und 
der Wissenschaft. Darüber hinaus sieht sich auch der einzelne Bürger 
mit diesem Themenkreis konfrontiert, sei es im Hinblick auf den Schutz 
vor Kriminalität, Naturgefahren, Terrorismus, Havarien, Epidemien, bis 
hin zur Wahrung seiner Persönlichkeitsrechte in einer informationstech- 
nologisch vernetzten Welt. Bei der Realisierung von Sicherheitssystemen 
sind nationale und internationale gesetzliche Rahmenbedingungen so- 
wie der Datenschutz ebenso zu beachten wie Aspekte der Normung (z.B. 
DIN, EU), der Interoperabilität, systemtechnische Aspekte, Zuverlässig- 
keit und der Ergonomie/Bedienbarkeit. Natürlich gibt es viele sicher- 
heitstechnologisch relevante Forschungsgebiete; der vorliegende 
Schwerpunkt in Sachen »Sicherheitstechnik« basiert jedoch auf Bildfol- 
gen. 


6.1 VSAM - Video Surveillance and Monitoring 


Eines der ersten größer angelegten Projekte zum Thema intelligenter Vi- 
deosicherheitstechnik war das von 1997-1999 laufende VSAM!-Vorha- 
ben (Collins, et al., 2000). In VSAM wurde ein Netzwerk von intelligenten 
Kameras zur kontinuierlichen und großflächigen Erfassung von Perso- 
nen und Fahrzeugen in dynamischer Umgebung zugrunde gelegt, um ein 
durch eine Einzelperson bedienbares Sicherheitssystem zu Konstruieren. 
Das Projekt endete vorläufig mit einem Experimentalsystem, das nahezu 
alle bis heute für Sicherheitssysteme relevanten Aspekte ansprach. Aus 


1 VSAM: Video Surveillance and Monitoring. 
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diesem Grund und auch weil es bis heute weiterentwickelt wird, ist es als 
eine Art Referenzsystem geeignet (Lakshmi Devasena, Revathi, & 
Hemalatha, 2011). 


Das VSAM-Experimentalsystem (Testbed) bestand aus einer zentralen 
Kontrolleinheit (OCU - Operator Control Unit), die u.a. Sensor- und Kolla- 
teraldaten empfing und verarbeitete, Datenmodelle bereithielt, für die 
weitere Verarbeitung sorgte und die Ergebnisvisualisierung sowie Inter- 
aktion umsetzte. Ein weiterer wichtiger Aspekt der aufgabengesteuerten 
Kontrolleinheit bestand in der Sensoreinsatzplanung. Für die nötigen 
Sensorströme sorgte ein Videokameranetz auf dem Campus der Carnegie 
Mellon University. 
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VIS 


CMUPA[ 

— GUI 
DIS 
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Sensor 
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OCU 


CMUPA 
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SPUs 


Abbildung 6-1: Architekturübersicht des VSAM-Systems (Collins, et al., 
2000)? 


2 CMUPA: Carnegie Mellon University Packet Architecture, DIS - Distributed In- 
teractive Simulation (Kommunikationsprotokolle), VIS (hier): Visualisierung. 
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An die zentrale Kontrolleinheit (OCU) waren intelligente Kameras (SPU - 
Sensor Processing Units) angeschlossen, deren eingebaute Verarbei- 
tungseinheit als Filter agieren sollte. Die Aufgabe bestand in der Detek- 
tion relevanter Ereignisse und der Übermittlung symbolischer Daten an 
die Kontrolleinheit. Dadurch sollte insbesondere die Netzwerklast so 
weit wie möglich reduziert werden. Die einzelnen SPUs stellten ein hete- 
rogenes Netz unterschiedlicher Kameratypen dar (u.a. thermisches Infra- 
rot und visuell-optische Systeme). Zusätzlich zu den festinstallierten 
SPUs nutzte VSAM auch eine fahrzeug- sowie eine luftgestützte SPU. 


Die aufgabengesteuerte Sensoreinsatzplanung der OCU basierte auf ei- 
ner Kostenfunktion. Diese Kostenfunktion bewertete die detektierten Er- 
eignisse sowie die Wertigkeit der Aufgabenstellung und berechnete die 
Kosten des jeweiligen Sensoreinsatzes. Auch für diese Abschätzungen 
war ein digitales Elevationsmodell der zu überwachenden Szene not- 
wendig. 


Diskussion 


Die Ziele von VSAM, die wesentliche Verarbeitung schon in den ange- 
schlossenen intelligenten Kameras durchzuführen, um insbesondere re- 
levante Ereignisse als solche automatisch zu erkennen und nur noch 
symbolische Ergebnisdaten an eine Zentrale zu übermitteln sind zwar 
verständlich, aber auch heute noch, bis auf spezielle Anwendungen, z.B. 
im Fahrerassistenzbereich, zu ambitioniert. Im Grunde werden die gene- 
rellen Herausforderungen an die Bildauswertung als »gelöst« betrachtet 
und in die intelligenten Kameras verlagert. Ein Ansatz, der die Machbar- 
keit in Teilen verkannte und der dafür sorgte, dass im Rahmen von VSAM 
viel Entwicklungsarbeit in hochperformante, allerdings jedoch dedizierte 
und unflexible Hardware investiert wurde. 


Die aufgabengestützte Abarbeitung und Kostenschätzung hat in VSAM 
ebenso dedizierten Charakter. Es konnten keine Auswerte- bzw. Überwa- 
chungsaufgaben (z.B. bestimmtes Fahrzeug oder bestimmte Person 
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verfolgen) formuliert werden, sondern mussten durch Anpassungen der 
Verarbeitungsketten von Hand umgesetzt werden. 
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7  Videoauswertesystem ABUL 


Das vom Autor erdachte und im Fraunhofer IOSB entwickelte Videoaus- 
wertesystem ABUL! ist fiir Sicherheitsanwendungen unter Nutzung der 
bildgebenden Sensorik unbemannter Luftfahrzeuge konzipiert und ent- 
wickelt worden (Müller & Heinze, ABUL - Systemübersicht, 2013). Ur- 
sprünglich wurde es konzipiert, um Bildfolgenverarbeite- und -auswer- 
teverfahren in einem System- und Anwendungszusammenhang testen, 
demonstrieren und weiterentwickeln zu können. Damit knüpft es an 
frühere Arbeiten der 80er und 90er Jahre im IOSB (vormals IITB) an, die 
unter dem Titel KIBASX? erfolgten und, im Gegensatz zu ABUL, verstärkt 
Bildauswertung auf Einzelbildern statt Videobildfolgen unter den Aspek- 
ten der Mensch-Maschine-Interaktion, Ergonomie und Vernetzung zum 
Ziel hatten (Schönbein, 1989). Beiden Systemen gemeinsam ist der gene- 
rische Ansatz, welcher die leichte Integrierbarkeit neuer Auswertever- 
fahren ermöglichen soll. Dazu gibt es Konfigurationsmodelle, nach außen 
offen gelegte Softwareschnittstellen sowie die Unterstützung einer brei- 
ten Palette von Standardformaten. Damit wird es auch Dritten ermög- 
licht, eigene Algorithmen in das Auswertesystem zu integrieren. Für die 
Bewertung von Tarnmafßnahmen, also Ansätzen zur Unkenntlichma- 
chung von Objektsignaturen, wurde ABUL um Funktionen zur Tarnbe- 
wertung erweitert und CART? genannt (Müller & Müller, 2011). Ferner 
erfuhr ABUL eine Erweiterung durch eine Videodatenbank, welche VA- 
BUL* genannt wird (Brüstle & Heinze, 2012). 


1 ABUL: Automatische Bildauswertung für unbemannte Luftfahrzeuge. 

2 KIBASX: Konfigurierbares, interaktives Bildauswertesystem, basierend auf X- 
Window. 

3 CART: Camouflage Assessment in Real Time. 

4 VABUL: Videodatenbank ABUL. 
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7.1 Architektur 


Die Kommunikationsarchitektur von ABUL istin 3 Hauptkomponenten 
und ein übergeordnetes Steuermodul aufgeteilt. Technisch erfolgt die 
Kommunikation über einen Dbus (Desktop-Bus), welcher als Vermitt- 
lungssoftware (engl. middleware) einen freien IPC5-Rahmen realisiert 
(Esswein, 2012). Insbesondere ist damit auch ein ORB® umgesetzt, wo- 
mit die plattformunabhängige Kommunikation verteilter und parallel ab- 
laufender Anwendungen ermöglicht wird (Abbildung 7-1). Der Dbus 
stellt in Teilen eine freie Software nach dem CORBA’-Vorbild der OMG® 
dar. Durch die Nutzung einer solchen Kommunikationsinfrastruktur 
wird die Integration neuer Komponenten in ABUL im verteilten, hetero- 
genen Verbund deutlich vereinfacht. 


5 IPC: Interprozesskommunikation. 

6 ORB: Object Request Broker. 

7 CORBA: Common Object Request Broker Architecture. 
8 OMG: Object Management Group. 
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Dbus-Kommunikation 


Shared Shared 
Memory Memory 


Abbildung 7-1: Kommunikationsstruktur in ABUL, Bild: IOSB 


7.2  Benutzungsschnittstelle 


Die zwei grundlegenden Benutzungsschnittstellen von ABUL bestehen 
aus einem Video- und einem Auswertefenster. Im Videofenster (Abbil- 
dung 7-2) werden die verfügbaren Bilddatenströme (in Abhängigkeit der 
Sensorausstattung des UAV) in miniaturisierter Form angezeigt und zur 
Auswahl angeboten. Der jeweils selektierte Videostrom erscheint in vol- 
ler Auflösung mittig. Das Fenster bietet die generellen Funktionen 
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moderner Videobetrachter und -rekorder, inkl. des zeitversetzten Be- 
trachtens einer in Echtzeit einkommenden Bildfolge (engl. time shift) so- 
wie gängige Bildmanipulationsroutinen (Kontrast, Helligkeit, etc.) Ferner 
werden hier die Bildverarbeitungsverfahren (z.B. Bildteppichgenerie- 
rung) ausgewählt. 


Videofenster: LUNA -ox| 
| Flüge | videos | Status gi 
Status  Priortaet Lade ART planned TOT Kammentar Verzeichnis | Importiere Alm 
(0) ((x)) (09) 
9 w 
o D o 
Eo ort Er 
—_. q 
r o = 
om 
é 
= 
= = 
=, 
— 
waso Heg) p> [> Oe PD) led | (@ Ox dAd S ESETI 


Abbildung 7-2: Videofenster, Bild: IOSB 


Das Auswertefenster (Abbildung 7-3) visualisiert die Ergebnisse der Ver- 
fahrensauswahl und zeigt eine Zeitleiste, um in der erfassten Bildfolge zu 
navigieren, einzelne Abschnitte zu markieren oder auszuschneiden. 
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Abbildung 7-3: Benutzungsschnittstelle Auswertefenster, Bild: IOSB 


In der Echtzeitverarbeitung bleibt dem Operator wenig Zeit, um sich mit 
der Auswertung ggf. relevanter Szenenbereiche zu beschäftigen. Daher 
benötigt er eine Mimik, die ihm die Markierung interessierender Bildfol- 
genbereiche mit einer Start- und Endpunktmarke erlaubt. Die Ergebnisse 
werden zusammen mit der Bildfolge gespeichert, um für eine spätere o- 
der, übergeben an andere Auswerteinstanzen, parallel laufende De- 
tailausWertung verwendet werden zu können (Abbildung 7-4). Die Mi- 
mik zum Setzen der Marken erlaubt ferner die Navigation im Bildstrom. 
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Abbildung 7-4: Definition von Marken im Bildfluss zur Definition von re- 
levanten Teilabschnitten, Bild: IOSB 


7.3 Bildauswerteverfahren 


Im Folgenden werden exemplarisch einige Bildverarbeitungs- und -aus- 
werteverfahren vorgestellt. Im Zentrum stehen Registrierverfahren und 
ihre Anwendungen. 


7.3.1 Bildregistrierung 


Die Registrierung konsekutiver Einzelbilder (auch Bildstapelung oder 
Bildverrechnung genannt) einer Bildfolge ist von zentraler Bedeutung 
bei bewegten Sensorplattformen. Ein präzises Registrierungsergebnis 
macht viele interaktive oder automatische Auswertevorgänge überhaupt 
erst möglich. Beispielsweise kommt es bei mobilen, von Haus aus nicht 
stabilisierten Sensorplattformen häufig zu Wackeleffekten, die den 
menschlichen Beobachter stören und ermüden. Auch bei ortsfesten Sen- 
soren kommt es häufig zu hochfrequenten Zitter- bis hin zu kapitaleren 
Wackeleffekten, z.B. bei Mastmontagen. Um zwei Bilder aufeinander zu 
registrieren, kommen grundsätzlich Verfahren in Frage, die 


e 0-dimensionale (Punkte, Ecken) 
e 1-dimensionale (Geradensegmente/Kurven) 


e 2-dimensionale (Flächen, z.B. durch Polygonzüge definiert) oder 
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e 3- bzw. 212-dimensionale (z.B. Elevationsmodelle) 


Merkmale nutzen. Dabei werden die jeweiligen Merkmale aus den zwei 
zu registrierenden Bildern extrahiert, eine Korrespondenzanalyse durch- 
geführt und daraus dann die Parameter für eine Transformationsfunk- 
tion (z.B. affin, projektiv) geschätzt. Die höherdimensionalen Merkmale 
stellen höhere Anforderungen an ihre Extrahierbarkeit im Hinblick auf 
die Szenencharakteristik. Beispielsweise sind Geradensegmente als Stra- 
ßenhypothesen bei großflächigen Aufnahmen, z.B. in mitteleuropäi- 
schen, also bewohnten, infrastrukturell ausreichend ausgestatteten Sze- 
nen eine gute Wahl, da entsprechende Kanten- bzw. Liniendetektoren 
(Krüger, 2001) zumeist ausreichend viele und über das Bild verteilte 
Merkmale extrahieren können (Müller, et al., 1996). Bei anderen Szenen 
bzw. entsprechend kleinen Erfassungsbereichen des Sensors, wie es bei 
Videosensorik häufig der Fall ist, lassen sich oft nur abstraktere Merk- 
male (Punkte) finden (Müller, et al., 2001). Erste Arbeiten befassten sich 
mit der Anwendung des »Sternbildalgorithmus« (Zimmermann & Kories, 
1989) und dessen Anwendbarkeit auf die Bildregistrierung (Müller, et 
al., 1997). Bei der Ergebnisvisualisierung werden die Zuordnungen der 
korrespondierenden Bildmerkmale als Vektorfeld dargestellt und das 
Registrierungsergebnis in anaglyphischer Darstellung visualisiert (Abbil- 
dung 7-6). 


Die Extraktion von punktförmigen Merkmalen zur Lösung der Registrie- 
rungsaufgabe stellt nach wie vor ein Forschungsthema dar. Dabei geht es 
um die Verbesserung der Robustheit sowie der Effizienz der Extraktion. 
Dem Sternbildalgorithmus liegen im Wesentlichen Filterungen mit ei- 
nem Bandpass in 3 Stufen »fein«, »mittel« und »grob« zugrunde. Neuere 
wollen ein höheres Maß an Invarianz gegenüber einem ganzen Bündel 
an Einflussfaktoren erreichen. Beispiele dafür sind die SIFT°- und 
SURF!0-Ansätze. Der SIFT-Ansatz, vorgeschlagen von (Lowe, 2004), kon- 
zentriert sich auf die Beherrschung der Rotation, Skalierung, affinen 


9 SIFT: Scale Invariant Feature Transform. 
10 SURF: Speed-Up Robust Features. 
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Deformationen, Aufnahmewinkeländerungen, Rauschen sowie Beleuch- 
tungsänderungen. Das analoge Ziel verfolgt auch der SURF-Ansatz. Es 
stellt sich dabei heraus, dass der SIFT-Ansatz mehr robuste Merkmale 
aus dem Bildbereich extrahieren kann, dafür aber auch länger benötigt 
(Panchal, Panchal, & Shah, 2013): 


Algorith- Merkmale Merkmale Robust!! Rechenzeit 
mus Bild1 Bild2 

SIFT 892 934 41 1,543 s 
SURF 281 245 28 0,546 s 


11 Damit wird angegeben, wie viele Merkmale tatsächlich korrekt zugeordnet 


wurden. 
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Abbildung 7-5: Zwei Beispielaufnahmen derselben Szene 
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Abbildung 7-6: Verschiebungsvektorfeld (oben) und Registrierungsresul- 
tatin anaglyphischer Darstellung, Bilder: IOSB 
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Für die Berechnungen wurden ein Bildpaar mit annähernder VGA-Auflö- 
sung (640 x 478) und ein Rechner mit Intel i3-CPU (2,3 GHz) zugrunde 
gelegt. Abgesehen davon, dass der SIFT-Ansatz gegenüber SURF die drei- 
fache Rechenzeit beansprucht, wird deutlich, dass beide Ansätze für die 
Videoauswertung in Echtzeit ungeeignet sind. Dafür sind die Rechenzei- 
ten selbst des schnelleren SURF-Ansatzes mit über % Sekunde für ein 
Bildpaar zu lang. 


In das noch vorzustellende Videoauswertesystem ist ein Ansatz zur 
Merkmalsextraktion und Punktkorrespondenzschätzung integriert, der 
zwar nicht die Robustheit wie SIFT/SURF aufweist (insbes. im Hinblick 
auf Aufnahmewinkelvariationen), dafür jedoch echtzeitfähig operiert 
(Krüger, 2001), (Müller, Krüger, & Saur, Robust image registration for 
fusion, 2007), (Heinze, Esswein, & Krüger, 2010). Die höhere Empfind- 
lichkeit gegenüber Aufnahmewinkelveränderungen kann toleriert wer- 
den, da sich in den typischen Szenarien (z.B. Überflug) keine starken 
bzw. sprunghaften Winkeländerungen ergeben. 


7.3.2 Bildteppiche 


In vielen Fällen erfasst ein bildgebender Sensor nur einen kleinen Bo- 
den- bzw. Szenenbereich. Dabei geht rasch die Übersicht verloren und 
Objekte, die größer als der Erfassungsbereich des Sensors sind, können 
nicht als Ganzes aufgenommen werden. Das kann, in Abhängigkeit der 
Aufnahmeparameter, beispielsweise bei einem Überflug über ein größe- 
res Schiff oder eine größere Liegenschaft der Fall sein. Durch eine prä- 
zise Registrierung können die Einzelbilder einer Bildfolge zu einem Bild- 
teppich verrechnet und somit ein großes, statisches Einzelbild generiert 
werden (vgl. Abbildung 7-7), (Müller, et al., 2001). Das Verfahren arbei- 
tet multisensoriell, wie an den Registrierungsergebnissen einer Zwei- 
farb-IR-Kamera (MWIR und LWIR) zu sehen ist (Müller, Schreer, & 
Monica, Real-time image processing and fusion for a new high-speed 
dual-band infrared camera, 2007): 
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Abbildung 7-7: Zu beachten ist, dass bei dem Bildteppich keine 
Schnittkanten erkennbar sind, was an der hohen 
Subpixelgenauigkeit (< 0,2 Pixel) liegt, Bild: IOSB 


Abbildung 7-8: Bildteppiche einer Zweifarb-IR-Kamera (Auflösung: 3.000 
x 900 Pixel) von Freiburg. Oben: Tagaufnahme, unten: 
Nachtaufnahme. Die MWIR- und LWIR-Bänder sind mit 
Komplementärfarben überlagert. Verwendet wurden 
rund 100 Einzelbilder. Einzelbilder: IRCAM GmbH; Bild- 
teppich: IOSB 


Der generierte Bildteppich kann auf vielfältige Weise weiterverwendet 
werden. 


e = Referenzierung mit einer geografischen (Vektor-) Karte oder ei- 
nem Referenzbild (z.B. einem Orthofoto (vgl. Abbildung 7-9) 
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oder einem anderen Bildteppich). Damit sind u.a. die grundle- 
genden Voraussetzungen zur Änderungsdetektion geschaffen. 
Bei der Referenzierung zweier Bildteppiche aufeinander oder ei- 
nes Bildteppichs auf eine Bildfolge fungiert der eine Bildteppich 
als szenarischer Soll-Zustand und der andere referenzierte Bild- 
teppich bzw. die referenzierte Bildfolge als Ist-Zustand. 


e Die Referenzierung mit einer Karte erlaubt in Folgeschritten 
eine nachträgliche Verbesserung der Geocodierungsqualität, 
also der weltlichen Koordinatenangabe. Systeme ohne diese 
Funktion verlassen sich ausschließlich auf die ungenauen Flug- 
und Aufnahmeparameter. Damit sind jedoch keine präzisen 
Ortsangaben in Weltkoordinaten möglich, um z.B. Einsatzkräfte 
aus der Luft gezielt dirigieren zu können. 


Abbildung 7-9: Bildteppich, referenziert mit einem Ikonos-Orthobild 
(Hintergrund) und in blau eingezeichnetem Flugweg des 
Sensorträgers (gemäß GPS-Flugdaten). Bild: IOSB, Ikonos- 
Bild: Gelsdorf 


e Aufgrund der hohen Überlappung der Einzelbilder eines Bild- 


teppichs bietet sich eine Stereobildteppichgenerierung (Abbil- 
dung 7-10) an, aus der (derzeit noch nicht in Echtzeit) ein 
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Tiefenbildteppich generiert werden kann. Abbildung 7-11 zeigt 
einen Ausschnitt aus einem Beispiel für einen Tiefenbildteppich. 


Abbildung 7-11: Beispiel für einen Tiefenbildteppich, Bild: IOSB 


Die Einbindung der Bildteppichfunktionalität (wie auch diverser anderer 
Funktionen) in das System ABUL erfolgt in einem zweiten Fenster (Ab- 
bildung 7-12). 
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Abbildung 7-12: In Echtzeit generiertes Bildteppichergebnis, Bild: IOSB 


7.3.3 Bildverbesserung und Bildstabilisierung 


Eine präzise Bildregistrierung erlaubt fortschrittliche Bildkorrekturen, 
wie z.B. die Entfernung von Sensorartefakten und Pixelstörungen (engl. 
dead pixels), vgl. (Heinze N., Esswein, Krüger, & Saur, 2008). 
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Abbildung 7-13: Bildverbesserung (u.a. Beseitigung von Pixelstörungen 
und Kontrastanhebung). Original: oben, Korrektur: unten, 
Bild: IOSB 


Aus preislichen oder systemtechnischen Gründen (Gewicht, Größe) ist 
oft keine mechanische Stabilisierung des Sensors möglich bzw. er- 
wünscht. Andererseits erlauben die Flug- und Aufnahmeparameter auf- 
grund ihrer Ungenauigkeit keine darauf basierende Verrechnung. Daher 
sind auf der Basis der Referenzierungsalgorithmik Softwarelösungen re- 
alisiert worden, die eine stufenlos parametrierbare Stabilisierung er- 
möglichen (Heinze N. , Esswein, Krüger, & Saur, 2008). 


7.3.4 Weitere Verfahrensansätze 


Die Interaktion mit Bildfolgen in Echtzeit fordert vom Benutzer viel Fin- 
gerspitzengefühl. U.a. um Zielobjekte zuverlässiger und schneller 
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markieren zu können, laufen Arbeiten, die sich auf die Erfassung der Au- 
genbewegungen des Benutzers beziehen (Hild, Brüstle, & Heinze, 2013). 
Damit soll der Benutzer in der Lage sein, das ihn interessierende, ggf. 
sich bewegende Objekt in der Bildfolge mit seinen Augen anzuvisieren 
und mit einer zusätzlichen Interaktion (Tastendruck) zu markieren. 


Aufgrund der Möglichkeit zur Schätzung der Eigenbewegung durch die 
Bildreferenzierung ist eine Grundlage geschaffen, die Eigenbewegung 
aus dem Bildstrom heraus zu rechnen und sich relativ zum Hintergrund 
bewegende Objekte zu detektieren (bildgestützte Bewegzieldetektion - 
image-based moving target indication). Ergebnisse zeigt die folgende Ab- 
bildung, entsprechende Arbeiten wurden u.a. in (Teutsch, Krüger, & 
Heinze, 2011) beschrieben. 


Abbildung 7-14: Bildgestützte Bewegtzieldetektion, Bild: IOSB 
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Zur Verwaltung und leichteren Abrufbarkeit erflogener Sensordaten ist 
ein (Video-) Archivsystem nötig. Unter der Bezeichnung »VABUL« sind 
entsprechende Arbeiten im Gange. Die Arbeiten zielen u.a. auf ein bildin- 
haltsgestütztes, also semantisches Retrieval von Bilddaten ab (image ret- 
rieval). Dabei soll z.B. ein Ausschnitt aus einer Szene vorgegeben werden, 
um die Videos in der Datenbank nach den Stellen zu durchmustern, die 
Aufnahmen von der gesuchten Szene darstellen. Die gegenwärtig reali- 
sierte Archivierungsfunktionalität erlaubt es u.a. interaktiv eine geogra- 
phische Region zu spezifizieren, um zeitlich geordnet die diesbezüglich 
erflogenen Daten abzurufen (Brüstle & Heinze, 2012). 
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Hier soll die »Normierte Ableitung einer Gaußfunktion« (NAG) auf alter- 
native Weise hergeleitet und einige Eigenschaften dargelegt werden. 
Diese Herleitung der NAG-Funktion demonstriert insbesondere eine al- 
ternative Behandlung des Skalierungsparameters. 


Die Nutzung der Ableitung einer Gaußfunktion zur Kantendetektion bzw. 
Detektion von Konturpunktkandidaten wurde parallel und unabhängig 
voneinander von A. KORN und J. F. CANNY in ihren Veröffentlichungen 
(Korn A. , 1985), (Korn A. , Toward a Symbolic Representation of 
Intensity Changes in Images, 1988) bzw. (Canny J. F., 1983), (Canny J., 
1986) vorgeschlagen. Jeweils erganzende Aspekte beziehen sich auf Kri- 
terien guter Kanten (Canny J. , 1986) bzw. der Normierung der Gauß-Ab- 
leitung für die Betrachtung im Skalenraum (Korn A., Toward a Symbolic 
Representation of Intensity Changes in Images, 1988). 


8.1 Neue Herleitungsvariante 


Die hier dargestellte Herleitung ist eine Variante der in (Korn A., Toward 
a Symbolic Representation of Intensity Changes in Images, 1988) vorge- 
nommenen Herleitung. Im Gegensatz zum Originalpapier wird jedoch auf 
die Einführung einer eigenen Konstante für die Normierung verzichtet 
und die Darstellung gestrafft. Auch ist der Denkansatz für die Herleitung 
etwas anders bzw. allgemeiner gehalten: es geht letztlich um die Bestim- 
mung von Formparametern einer Gaußfunktion bzw. deren Ableitung. 
Und zwar in beiden Fällen mit dem Ziel, Dichtefunktionen zu erhalten. Es 
wird sich zeigen, dass 


a. die Eigenschaft, Dichtefunktion zu sein, zwangsläufig 


notwendig ist, um eine Gaußfunktion (bzw. deren Ablei- 
tung oder einer beliebigen anderen Funktion) zur Be- 
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rücksichtigung für Filterbänke (Skalenräume oder Auf- 
lösungspyramiden) verwenden zu können und 


b. aufdie Einführung zusätzlicher Formparameter zur 
Normierung der Ableitung einer Gaußfunktion (zu einer 
links- bzw. rechtsseitigen Dichtefunktion) verzichtet 
werden kann. 


Es wird aufgrund der Separierbarkeit der Gaußfunktionen zur Herlei- 
tung nur der eindimensionale Fall betrachtet. Das Ergebnis für den zwei- 
dimensionalen Fall wird in Abschnitt 8.2 gezeigt. 


C. F. GAUR schlug zur Messfehlerbeschreibung folgende Funktionsterme 
vor: 


g(x) = ce” (8.1) 


wobei c, a e P>”? Formparameter sind. Zur Ermittlung der Differenz mitt- 
lerer Grauwerte benachbarter Gebiete schlug (Korn A., Toward a 
Symbolic Representation of Intensity Changes in Images, 1988) die Fal- 
tung der Bildfunktion fmit g’vor: 


G 


g=-2a:x:c: eax? (8.2) 
was sich zu 

g' = —2a-x- g(x) (8.3) 
vereinfachen lasst. 


Um Ergebnisbilder verschiedener Auflösungsstufen vergleichen zu kön- 
nen, wurde von KORN ferner ein Faktor k vorgeschlagen, der die Summe 
der Filterwerte auf +1 normieren soll, d.h. für den rechtsseitigen Fall 
(linksseitig analog): 


= 1 
kf g'(x)dx=1 =k lim g(x) -g0) = k: —c > k = = (8.4) 
0 Im 
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Für die Standardabweichung o erhält man bei einer Normierung von g 
zu einer Dichtefunktion 


00 
| g(x)dx =1 (8.5) 
—00 
f en, | i : 
die Formparameter a = Fr undc = N; Da g’ punktsymmetrisch zum 


Ursprung ist, wird verlangt, dass die jeweiligen Beträge der links- bzw. 
rechtsseitigen Teile der Funktion Dichtefunktionen darstellen. Für den 
rechtsseitigen Teil (linksseitiger Fall analog) also, dass 


k | ak =1 (8.6) 


zu erfüllen ist. Der Normierungsfaktor k kann aus den Rechenregeln für 
unbestimmte Integrale berechnet werden: 


| dx = lim 9% - 900) = -90) = -e 87) 


Somit ergibt sich auch hier: k = - = ov2n. 
Für die gewünschte Normierung der ersten Ableitung einer Gaußfunk- 


tion genügt es also, die Ableitung g’mit dem Kehrwert des für g bereits 
festgelegten Formparameters c zu multiplizieren: 


1, 
NAG(x) = 9 &) 


1 
= (-2a.x:9(%)) (8.8) 


rm 


= „(2a “XC: ea”) 
= —2a - x- e72? 


. 1 
erneutmita = >: 
20 
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Wie zu erkennen ist, fällt der Formparameter c bei der NAG-Berechnung 
ganz heraus und die Berechnung vereinfacht sich. Erkennbar ist ferner, 
dass die gewünschte NAG auf kanonische Weise unter Nutzung bereits 
für g bestimmter Formparameter herleitbar ist, d.h. weitere Form- bzw. 
Normierungsparameter sind nicht erforderlich. 


Die Formel für die NAG skaliert Korrekt im kontinuierlichen Bereich. Zur 
praktischen Berechnung von diskreten Maskenkoeffizienten ist sie je- 
doch eher ungeeignet, da zwangsläufig Fehler (d.h. Summe der positiven 
bzw. negativen Koeffizienten # 1 bzw. + -1) aufgrund der endlichen An- 
zahl von Maskenkoeffizienten auftreten. Die diskrete NAG muss also 
»nachnormiert« werden. Anstatt die NAG bei der tatsächlichen Koeffi- 
zientenberechnung einer Nachnormierung zu unterziehen, können die 
Koeffizienten gemäß zweiter Ableitung von g berechnet werden. Die 
Normierung ergibt sich dann durch die Multiplikation mit dem Mittel- 
wert der positiven Koeffizienten. 


8.2  Zweidimensionale Berechnung der NAG 


Die Amplituden und Richtungen der Gradienten werden mit (8.9) be- 
rechnet. 


1 
NAG) (x,y) = —gs(x,y) = 2a, x ° Ete (8.9) 
S 


Der Skalierungsparameter o wurde als Index ergänzt. Die Korn‘sche 
Transformation K der Bildfunktion fgemäß einem eingestellten o ergibt 
sich für die x- und y-Richtung aus 


NAGS Y ) (8.10) 


K(x, y) = f(x,y) * a 


Nach den Faltungen liegen zwei Ergebnisse vor: KX und KŽ. Die 
Amplitude A der Gradienten (Kontrastmaß) errechnet sich aus 
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A(x,y) = REC, y)? + KZ (x, y)? (8.11) 


und der Gradientenwinkel g bestimmt sich durch: 


p(x, y) = arctan (Ger) 


Kay (8.12) 


Abbildung 8-1 zeigt eine grafische Darstellung einer zweidimensionalen 
NAG. 


Abbildung 8-1: Die zweidimensionale NAG-Funktion (a= 2) 
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9 Zusammenfassung und Ausblick 


In dieser Arbeit wurden Beiträge für Sicherheitsanwendungen aufgezeigt 
und exemplarisch angewendet. Im Wesentlichen wurde ein flexibler An- 
satz zur Auffälligkeits-/Salienzdetektion in Kombination mit Aspekten 
einer schnellen SIMD-Implementierung dargestellt und das Bildfolgen- 
auswertesystem ABUL präsentiert. 


Der Ansatz zur Auffälligkeitsdetektion ist flexibel und leicht erweiterbar, 
da die gesuchten Strukturen in Form einfacher Binärmodelle vorgebbar 
sind. Es reicht also, die grundlegenden Eigenschaften der jeweiligen Auf- 
fälligkeit in Form einer binärbildlichen Skizzierung zu modellieren. Jedes 
Modell kann einen Softwareagenten realisieren, der dann im Bildbereich 
nach den entsprechenden Mustern sucht und anderen Auswerteverfah- 
ren Hinweise auf Orte liefert, die auf der Basis anderer Binärmodelle 
(bzw. grundsätzlich anderer Verfahren) inspiziert werden sollten. 


Ausprägungen des ABUL-Systemansatzes sind in der Praxis von diversen 
behördlichen Stellen in Erprobung bzw. im Einsatz. Die Entscheidung, ei- 
nen solchen Systemansatz »von Null auf« zu entwickeln, barg das Risiko 
der Finanzierbarkeit, welche jedoch durch die Akquisition entsprechen- 
der Mittel in einem Maße erfüllt werden konnte, dass mittlerweile zwei 
Forschungsgruppen - in Teilen - an der Weiterentwicklung beteiligt 
sind. 


Die ersten Funktionen bezogen sich auf den primär interaktiven Umgang 
mit Bildfolgen, wobei bereits in den frühen Versionen echtzeitfähige 
Bildregistrierverfahren integriert wurden. Diese Verfahren wurden als 
grundlegend für eine Vielzahl weiterer Anwendungsmöglichkeiten, ins- 
bes. zur Auffälligkeits-/Änderungsdetektion, erkannt und ihre kontinu- 
ierliche Fortentwicklung stetig weiterbetrieben. 
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Unmittelbar naheliegende Funktionserweiterungen bieten sich z.B. wie 
folgt an: 
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Registrierung einer Einzelbildfolge auf einen zuvor generierten (Re- 
ferenz-) Bildteppich. Die Referenz stellt einen szenarischen Soll-Zu- 
stand dar, der mit dem Ist-Zustand der live und ggf. »aus der Hand« 
aufgenommenen Bildfolge im Hinblick auf Auffälligkeiten/Verände- 
rungen verglichen werden soll. 


Falls k Sensoren an das System angeschlossen sind, bietet sich die 
Erstellung von k-Bildteppichen an. Diese können jeweils einzeln für 
sich erzeugt werden, um dann eine gegenseitige Referenzierung zu 
erfahren. 


Auf der Basis von Stereo-Bildteppichen sind Verfahren wünschens- 
wert, die entsprechende Tiefeninformationen extrahieren und dar- 
aus einen »Tiefenbildteppich« generieren. Erste Ansätze sind vor- 
handen, jedoch sind sie noch recht rechenintensiv, sodass noch kein 
Echtzeitansatz möglich ist. 


Sind Tiefenbildteppiche gegeben, bietet sich eine Texturierung ent- 
sprechend einer Auswahl aus den k-Bildteppichen an. 
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